GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

う〜ん、上手く行かないなぁ

 PGLeaf、AC-PGLeaf*1、LA-PGLeafと色々な学習ルーチンを、色々なメタパラメータで走らせていますが、どれも強くなってくれないです。対ssp5五将棋モード)で勝率70%行けば良い方。

 んで、現在の評価項目はBonanza 6.0を参考に駒割+KKP+KPP+αなんですが、手番評価を加えてもダメだろうなぁ。

 と言うか、評価関数とか探索ルーチンの問題ってよりは、PGLeafの根本的な部分での問題ッポイし。

 ログをざっと眺めた感じ、パラメータ更新するとPVが大幅に変わっちゃって、それが原因で学習が上手く行っていない可能性が大です。(学習率を下げてもこの現象は起こります。)

 さて、困った。どうしようか。

*1:A3CとPGLeafを組み合わせたもの