さて、今後のプランはどうしようか
http://d.hatena.ne.jp/Gasyou/20170701/1498906118
先日書いた論文ですが、アルゴリズムの解説まで目を通して、残るは理論的な部分と実験結果のみ。ボチボチ読んで行きますが、とりあえずGA将に組み込む為の設計は可能な段階だと思います。
んで、以前書いたEB-PGLeafの拡張として上記論文の手法が使えそうですが、アルゴリズム的には選択肢が三つ。
- ボーナス無しでPVを求め、その後Leafのボーナスを計算し評価値に加算する。方策はOn-Policy。現行のEB-PGLeafの方式。
- PV・ボーナスは1.同様で、Off-Policyに修正する。
- ボーナス無しでPVを求め、それとは別にボーナス有りで評価値+ボーナスを最大化する手を求める。Off-Policy。
多分、上の方が難易度低い。
ただ、1.はOn-Policyなのでボーナスの係数*1をあまり大きく出来ないと言うデメリットは有ります。
2.に関しては、EB-PGLeafをOff-Policyに修正した事が有りますが、その時はあまり棋力向上はしなかった気が…
3.は…まぁ後回しで良いか。
あ、忘れてた、素直にTDLeaf(λ)と組み合わせるって手も有るか。
う〜ん、どうしようかなぁ。
*1:論文のβ