VS ssp(5五将棋モード) 勝率65.6%
損失関数を「λ収益*1との自乗誤差+交差エントロピー+PGLeaf+L2正則化」に修正し、132万局自己対局したパラメータ。あ、以前書き忘れていましたが、一時期からL2正則化無効にして元に戻すの忘れてたんで、今回の結果からL2正則化有効に戻ってます。
思考時間はGA将0.17秒・ssp1秒。約1000局対局させました。
んで、結果。636勝334敗で勝率65.6%。過去最高を更新しました。
現在は、同様の損失関数で更に自己対局を260万局まで勧めたパラメータが有りますので、そっちでスパーリング中。…なんですが、現在5勝6敗。対局数少ないんで信頼出来ないデータですが、あんまり調子良くなさ気です。
*1:λ=0.85