王将の移動可能範囲の勾配を自乗誤差・交差エントロピー・PGLeafの各項ごとに100区間移動平均でプロットしてみましたが、交差エントロピーのグラフがどうにもおかしい。
自乗誤差のグラフはまぁ正常に見えるんで、評価関数のバグって線は薄いはず。
となると学習ルーチンの方が怪しいんですが、交差エントロピーの勾配計算はせいぜい10数ステップしか無いし、printf攻撃でログを見ても正常に見えるんでバグってる可能性は低い…かな?
グラフの意味を素直に読み取ると「浅く探索してPV Leafで玉が狭い方が、深い探索での結果と一致しやすいよ」って事になるんですが、う〜ん…