PGLeaf Zwei開発開始 - GA将？開発日記～王理のその先へ～

　PGLeafの改良版を色々作ってきたのですが、○○-PGLeafとかPGLeaf with ××とかって名前が冗長になってきました。

　という訳で、今まで上手く行った各種改良をまとめて実装したものを「PGLeaf Zwei」と呼ぶ事にしました。

　ちなみにPGLeafのベースはREINFORCEなので、Leafをとるとこういう事です。

　んで、とりあえず現状ですが、ミニバッチサイズを100から1000に変更・軽くL2正則化を実施・BonanzaのFV_SCALEに相当する値を微調整って辺りを修正して学習中。今ん所順調に強くなっている模様です。

　今後の方向ですが、群強化学習の考え方を取り入れて、複数の評価関数を並行して学習させたいと考えています。それから、どっかのタイミングで山本一将さんの学習法*1も実装してみたいですね。

　後は、ベースのアルゴリズムをREINFORCEから変更して、評価値のTD誤差なり勝率予測値の誤差なりを基準に学習させる*2のもリトライしてみたいですが、それは最後に回そうかと考えています。

*1:深い探索でのπの分布に、浅い探索でのπの分布を近付ける

*2:以前、SR-PGLeafとして実装したアルゴリズム