2011-08-24 方策勾配法のデバッグ中 開発日記 とりあえず5五将棋で片一方のプレイヤーだけ学習させて、それでちゃんと勝率100%になるのを目指します。 とりあえず方策内でのムーブオーダリング絡みのバグ*1を潰して、学習しない側の設定を色々しつつ様子を見てみました。 んで、学習しない側が常に最初の手*2を指す場合は100局やると75-25-0位でやたら引き分けが多くなり、ランダム指しだと99-0-1位になりました。 という訳で、何かどっかにバグがありそうな香りがするんですが、どこだろうなぁ… *1:両方のプレイヤーが学習する場合は発生しないバグなので、発見が遅れました *2:ムーブオーダリング前の、手の配列の先頭要素