上手く行かない
本将棋で方策勾配法(PGLeaf)の学習をしてるんですが、なかなか強くなりません。
どうも、駒の価値が他の位置評価に比べて小さくなっているみたいで、正則化を有効にしたり色々やってみても一向に改善の気配無し。
このままだと、来週のオープン戦はおろか選手権までに間に合わない可能性大です。
んで、学習ルーチンのベースがREINFORCEというアルゴリズムですが、自然方策勾配法(Natural Actor-Critic:NAC)に変更してみようかと検討中。
ただ、現在の駒の位置関係を基本とした評価関数だと、NACでパラメータ修正量の計算が(実用的な範囲では)出来ないので、評価関数自体もNAC用に新規に書き起こそうかと。
駒の価値とか位置評価とかは全部無視して、盤上の全マスの利きの優劣+持ち駒の種類・数だけで評価してみてはどうかと検討中。これなら、特徴の数は500弱ですむので、逆行列の計算やら何やらややこしい事に時間をかけずに済みそうです。
…問題はそんな簡単な評価関数で強くなるかどうかですが、一度やってみます。