GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

久々の更新

 http://d.hatena.ne.jp/Gasyou/20150606/1433554794

 前回から色々やってみて、どうも上手く行かない様なので色々検討中。

 んで、通常のSoftmax方策+方策勾配法の枠組みでは、評価値にボーナスを与える方法はNGみたいです。

 そういう訳で、エージェントの実装含めて修正しようかと考えました。

 キーワードは

  1. Off-Policy方策勾配法
  2. 重点サンプリング
  3. UCB1風のパラメータへのボーナス加算
  4. ガウスモデル方策

の4つです。

 ただ、いきなり全部実装すると混乱するでしょうから、まずは重点サンプリングから実験してみます。