GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

PGLeaf Zwei開発開始

 PGLeafの改良版を色々作ってきたのですが、○○-PGLeafとかPGLeaf with ××とかって名前が冗長になってきました。

 という訳で、今まで上手く行った各種改良をまとめて実装したものを「PGLeaf Zwei」と呼ぶ事にしました。

 ちなみにPGLeafのベースはREINFORCEなので、Leafをとるとこういう事です。

  google:image:"REINFORCE Zwei"

 んで、とりあえず現状ですが、ミニバッチサイズを100から1000に変更・軽くL2正則化を実施・BonanzaのFV_SCALEに相当する値を微調整って辺りを修正して学習中。今ん所順調に強くなっている模様です。

 今後の方向ですが、群強化学習の考え方を取り入れて、複数の評価関数を並行して学習させたいと考えています。それから、どっかのタイミングで山本一将さんの学習法*1も実装してみたいですね。

 後は、ベースのアルゴリズムをREINFORCEから変更して、評価値のTD誤差なり勝率予測値の誤差なりを基準に学習させる*2のもリトライしてみたいですが、それは最後に回そうかと考えています。

*1:深い探索でのπの分布に、浅い探索でのπの分布を近付ける

*2:以前、SR-PGLeafとして実装したアルゴリズム