VS ssp(5五将棋モード) 勝率62.1%
損失関数をλ収益との自乗誤差のみから、自乗誤差+交差エントロピーにしたもの*1に変更して120万局学習させたパラメータ。
結果は609勝371敗で勝率62.1%。思考時間はGA将0.17秒、ssp1秒のハンディキャップマッチです。
…ただ、このバージョンのパラメータ、何かおかしいんですよね。王将の移動可能範囲とかの一部のパラメータが、プラスになるのが妥当だと思われるのにマイナスになってたりして。
まぁ、強くなってるから良しとしますか。
この次は、損失関数にPGLeafの項を追加したバージョンがあるんで、そっちのスパーリングをさせてみます。
*1:AlphaGo Zeroにかなり近いです