PGLeaf Zwei開発開始
PGLeafの改良版を色々作ってきたのですが、○○-PGLeafとかPGLeaf with ××とかって名前が冗長になってきました。
という訳で、今まで上手く行った各種改良をまとめて実装したものを「PGLeaf Zwei」と呼ぶ事にしました。
ちなみにPGLeafのベースはREINFORCEなので、Leafをとるとこういう事です。
んで、とりあえず現状ですが、ミニバッチサイズを100から1000に変更・軽くL2正則化を実施・BonanzaのFV_SCALEに相当する値を微調整って辺りを修正して学習中。今ん所順調に強くなっている模様です。
今後の方向ですが、群強化学習の考え方を取り入れて、複数の評価関数を並行して学習させたいと考えています。それから、どっかのタイミングで山本一将さんの学習法*1も実装してみたいですね。
後は、ベースのアルゴリズムをREINFORCEから変更して、評価値のTD誤差なり勝率予測値の誤差なりを基準に学習させる*2のもリトライしてみたいですが、それは最後に回そうかと考えています。