ダメだ、全然強くならん - GA将？開発日記～王理のその先へ～

　「もういっその事、Bonanzaベースで方策勾配法での自己対戦学習を実装してしまえ」と言う声が聞こえてきた今日この頃です。

　でもなぁ…論文とか実験としてはそうするのが王道なんでしょうが、選手権に出る事考えるとそれで楽しいのかって考えると、自分的には正直微妙。

　「もともと強いプログラムを、強化学習でR+200しました」ってなっても、所詮自分の貢献度はR200分しか無い訳だし…

　て言うか、Bonanzaとかボナメソが優秀すぎて、それを超える強さを自前の学習ルーチンで実現出来るイメージが湧かない。困った。

　まぁでも、Bonanzaを改造して方策勾配法を実装して、それで強くなるなら現状で悪いのはGA将の評価関数OR探索ルーチンって事になるんで、原因の切り分けをするには向いてる…のかな？

　ちっと、連続対戦ツールを作りながら今後の方針を検討してみます。