GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

うーん、分からん

 試しにテーブル形式の評価関数&探索無しでリバーシの学習させると、ちゃんと意図した通りにパラメータを修正しているっぽい。つまり、方策勾配法の実装自体は多分問題無い。

 んで、評価関数を線形近似にすると、今度は意図しない方向にパラメータを修正する事もあるが、これは多分近似しているから。どうしても、ある局面の評価値(を計算する元になるパラメータ)をいじると他の局面の評価値にも影響するからだと思う。

 さて、困った。どこにもバグらしきものがないが、どっかにあるはずだし…

 うーん、次はどこを見ればいいんだ!?