GA将!!!!!には何が足りないのか考えてみた - GA将？開発日記～王理のその先へ～

　とりあえず、ちゃんと攻めてちゃんと囲って欲しいんで、それに足りないのは何か。

　以前にBonanza Methodで学習した時は、今とほぼ同じ評価関数・探索ルーチンでちゃんと囲うし攻めてたんで、この可能性は低い。

　自己対戦の質が悪い→強くならない→質が悪いままという悪循環にハマってるパターン。

　有りそうっちゃ有りそうな話ですが、それじゃぁ駒割とか終盤のパラメータは何で学習出来てるんだって話になります。

　本命かと思ってましたが、この可能性は低い…かも。

　ド本命ですが、どこにあるのかさっぱり見当もつきません。

　いやでも、さんざん論文読み直したし、まさかねぇ…

　あぁでも、ひょっとしたらその可能性もなきにしもあらずかも。

　要するに、終盤は指し手の良し悪しが報酬*1の大小に直結するので、ちゃんと学習出来ている。けど、序盤とかだと良い手を指してもそれが報酬に直結しない（後で悪手があって逆転されたりすると、マイナスの報酬しかもらえない）ので、ちゃんと学習出来てないんじゃないかって仮説。

　ただ、それだとブートストラップ*2が上手く行ってないって話になりますが、εグリーディでε=0.5とかにしてもそこそこちゃんと学習してるんで、ブートストラップ自体は機能してる…ンじゃないかなぁ。

　と言うか、この仮説を認めちゃうと「終盤はほぼ教師あり学習に近いからたまたま成功しただけ」って事になっちゃうんで、あんまり認めたくないです。

　何が原因か、さっぱり分かりません！

*1:今の設定だと、勝った時に+1.0、負けたら-1.0

*2:コンピュータ将棋の場合だと、ある局面の評価値を、それより後の局面の評価値を頼りに修正する事