GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

ダメだ、全然強くならん

 「もういっその事、Bonanzaベースで方策勾配法での自己対戦学習を実装してしまえ」と言う声が聞こえてきた今日この頃です。

 でもなぁ…論文とか実験としてはそうするのが王道なんでしょうが、選手権に出る事考えるとそれで楽しいのかって考えると、自分的には正直微妙。

 「もともと強いプログラムを、強化学習でR+200しました」ってなっても、所詮自分の貢献度はR200分しか無い訳だし…

 て言うか、Bonanzaとかボナメソが優秀すぎて、それを超える強さを自前の学習ルーチンで実現出来るイメージが湧かない。困った。

 まぁでも、Bonanzaを改造して方策勾配法を実装して、それで強くなるなら現状で悪いのはGA将の評価関数OR探索ルーチンって事になるんで、原因の切り分けをするには向いてる…のかな?

 ちっと、連続対戦ツールを作りながら今後の方針を検討してみます。