GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

VS ssp(5五将棋モード) 勝率62.1%

 損失関数をλ収益との自乗誤差のみから、自乗誤差+交差エントロピーにしたもの*1に変更して120万局学習させたパラメータ。

 結果は609勝371敗で勝率62.1%。思考時間はGA将0.17秒、ssp1秒のハンディキャップマッチです。

 …ただ、このバージョンのパラメータ、何かおかしいんですよね。王将の移動可能範囲とかの一部のパラメータが、プラスになるのが妥当だと思われるのにマイナスになってたりして。

 まぁ、強くなってるから良しとしますか。

 この次は、損失関数にPGLeafの項を追加したバージョンがあるんで、そっちのスパーリングをさせてみます。

*1:AlphaGo Zeroにかなり近いです