GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

方策勾配法のデバッグ中

 とりあえず5五将棋で片一方のプレイヤーだけ学習させて、それでちゃんと勝率100%になるのを目指します。

 とりあえず方策内でのムーブオーダリング絡みのバグ*1を潰して、学習しない側の設定を色々しつつ様子を見てみました。

 んで、学習しない側が常に最初の手*2を指す場合は100局やると75-25-0位でやたら引き分けが多くなり、ランダム指しだと99-0-1位になりました。

 という訳で、何かどっかにバグがありそうな香りがするんですが、どこだろうなぁ…

*1:両方のプレイヤーが学習する場合は発生しないバグなので、発見が遅れました

*2:ムーブオーダリング前の、手の配列の先頭要素