うーん、分からん - GA将？開発日記～王理のその先へ～

　試しにテーブル形式の評価関数＆探索無しでリバーシの学習させると、ちゃんと意図した通りにパラメータを修正しているっぽい。つまり、方策勾配法の実装自体は多分問題無い。

　んで、評価関数を線形近似にすると、今度は意図しない方向にパラメータを修正する事もあるが、これは多分近似しているから。どうしても、ある局面の評価値（を計算する元になるパラメータ）をいじると他の局面の評価値にも影響するからだと思う。

　さて、困った。どこにもバグらしきものがないが、どっかにあるはずだし…

　うーん、次はどこを見ればいいんだ！？