ちょっと進展?
方策勾配法での本将棋の学習が、ちょっと進んだかもしれません。
ふと「評価関数の能力不足で、序盤と終盤の学習が両立出来ないのかも」と思い、初手〜50手目までを学習対象としてみました(それ以降は、終局まで指すけど方策勾配の計算をしない)。
んで、500局ほど自己対戦が終わってからLesserkaiと対局させてみました。
結果、負けましたがそれなりに囲おうという意図が見えて、ちょっと嬉しかったです。
まぁ、王将が5八に上がって、その斜め上に金を並べただけなんですけどね。
それでも、昨年選手権バージョンのパラメータよりはマシですし、この調子でちゃんと囲い方を学習してくれれば、それなりに強くなってくれないかな、と。