さて、今後のプランはどうしようか - GA将？開発日記～王理のその先へ～

　先日書いた論文ですが、アルゴリズムの解説まで目を通して、残るは理論的な部分と実験結果のみ。ボチボチ読んで行きますが、とりあえずGA将に組み込む為の設計は可能な段階だと思います。

　んで、以前書いたEB-PGLeafの拡張として上記論文の手法が使えそうですが、アルゴリズム的には選択肢が三つ。

　多分、上の方が難易度低い。

　ただ、1.はOn-Policyなのでボーナスの係数*1をあまり大きく出来ないと言うデメリットは有ります。

　2.に関しては、EB-PGLeafをOff-Policyに修正した事が有りますが、その時はあまり棋力向上はしなかった気が…

　3.は…まぁ後回しで良いか。

　あ、忘れてた、素直にTDLeaf(λ)と組み合わせるって手も有るか。

　う〜ん、どうしようかなぁ。

*1:論文のβ