データ採取、少しだけ完了
GA将対sspの勝率の推移です。「通算」とあるのが先手・後手トータルでの勝率で、後は先手だけ・後手だけの値。
まず、正則化無し、開発用マシンで実行。
次に、正則化係数1E-4、学習用マシンで実行。
上は後手だけ、下は先手だけ勝率が高いです。
んで、この事から「後手(あるいは先手)の学習ルーチンにバグが有る」という可能性は低いです。(仮にそうなら、両方共後手の勝率が低くなるはず。)
という訳で、もう一つの可能性として「評価関数のキャパシティ不足」が考えられますが、三駒関係+αだからその可能性も低そうです。
…低そうですが、本当にそうなのか実証出来ていないので、先手と後手で評価関数のインスタンスを別にして学習させてみます。
結果が出るのは、早くとも明日朝だと思われます。