う〜ん、上手く行かないなぁ
PGLeaf、AC-PGLeaf*1、LA-PGLeafと色々な学習ルーチンを、色々なメタパラメータで走らせていますが、どれも強くなってくれないです。対ssp(5五将棋モード)で勝率70%行けば良い方。
んで、現在の評価項目はBonanza 6.0を参考に駒割+KKP+KPP+αなんですが、手番評価を加えてもダメだろうなぁ。
と言うか、評価関数とか探索ルーチンの問題ってよりは、PGLeafの根本的な部分での問題ッポイし。
ログをざっと眺めた感じ、パラメータ更新するとPVが大幅に変わっちゃって、それが原因で学習が上手く行っていない可能性が大です。(学習率を下げてもこの現象は起こります。)
さて、困った。どうしようか。
*1:A3CとPGLeafを組み合わせたもの