GA将?開発日記~原点回帰~

ネタ勢最強を目指して絶賛開発中。

さて、今後のプランはどうしようか

 http://d.hatena.ne.jp/Gasyou/20170701/1498906118

 先日書いた論文ですが、アルゴリズムの解説まで目を通して、残るは理論的な部分と実験結果のみ。ボチボチ読んで行きますが、とりあえずGA将に組み込む為の設計は可能な段階だと思います。

 んで、以前書いたEB-PGLeafの拡張として上記論文の手法が使えそうですが、アルゴリズム的には選択肢が三つ。

  1. ボーナス無しでPVを求め、その後Leafのボーナスを計算し評価値に加算する。方策はOn-Policy。現行のEB-PGLeafの方式。
  2. PV・ボーナスは1.同様で、Off-Policyに修正する。
  3. ボーナス無しでPVを求め、それとは別にボーナス有りで評価値+ボーナスを最大化する手を求める。Off-Policy。

 多分、上の方が難易度低い。

 ただ、1.はOn-Policyなのでボーナスの係数*1をあまり大きく出来ないと言うデメリットは有ります。

 2.に関しては、EB-PGLeafをOff-Policyに修正した事が有りますが、その時はあまり棋力向上はしなかった気が…

 3.は…まぁ後回しで良いか。

 あ、忘れてた、素直にTDLeaf(λ)と組み合わせるって手も有るか。

 う〜ん、どうしようかなぁ。

*1:論文のβ