PGLeaf Dreiの現在の構成 - GA将？開発日記～王理のその先へ～

　色々やって原型とどめ無くなってきたので、一旦整理。

勾配計算に用いるのはPGLeaf＋モンテカルロ法
1. PGLeaf項はGPWの論文そのまま
2. モンテカルロ項は評価値をシグモイド関数に通して予測勝率に変換し、交差エントロピーを最小化する
Softmax方策＋αβ探索＋線形の評価関数（駒割・PPT・KKPT・KPPT・王将の移動可能範囲）
Entropy Regularizationを係数*10.05で適用
Noisy Networks風に、パラメータに平均と標準偏差を設定する
自己対局の棋譜を元に学習する
1. 探索条件は、全幅3手（枝刈りはScoutのみ）＋静止探索1段目10手
自己対局500回を1エポックとし、1エポックごとにパラメータ更新
OptimizerはRMSProp メタパラメータはα==0.0001, γ==0.9, ε==1e-08

　自己対局ですが、5五将棋モードでは大体24時間で90万局程度のスピードです。

　で、現状ですが72万5千局経過後のパラメータで対ssp（ハンディキャップマッチ）の勝率が 60.9％。PGLeaf Zweiで同等の勝率になるには800万局必要だったんで、収束速度はかなり高速化しています。

　問題は伸び代なんですが、こればっかりは実験を進めてみないとどうしようも判断つきません。

　今後の予定ですが、このままPGLeaf Dreiでの学習を継続し、3月のGAT杯コンピュータ5五将棋大会に参加予定。その後、本将棋の学習を開始して選手権に間に合わせるつもりです。

*1:A3Cの論文のβ