定跡構築は一時中断&今後の方針を検討中
定跡ですが、ある程度の局面を登録出来たので実戦投入したんですが、かえって弱くなっちゃいました。
詳細はまだ未検証ですが、とりあえず一旦保留して、後日再検討します。
んで、基本に立ち返って強化学習での評価関数パラメータの学習を再開…しようと思ったんですが、どっか問題がある気がして仕方が無いので色々検討中。
- PGLeafのアルゴリズム自体に問題がある。
- PGLeafのエージェントの実装に問題がある。
- 探索ルーチンのバグ。
- 評価関数のバグ。
まず、三目並べや4x4リバーシで上手く学習出来ている事から、2.の可能性は低いです。
3.と4.に関してはチマチマとテストしていますが、現時点ではバグらしき挙動は無し。
ツー訳で、1.の「根本的に間違ってんじゃね?」疑惑が再度浮上してきました。
要するに、PV Leafの評価値を弄るとPV自体が変化してしまう。その対策を何もしないでアルゴリズムを構築したのがそもそもの原因なんじゃないかと。
んで、一つ考えたのは「Deep Learningで静止探索不要の評価関数が作れるなら、素のREINFORCEで行けるんじゃね?」という安直なもの。
これは、一度真面目に検討する価値ありそうですね。