GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

久々の更新

開発日記

　http://d.hatena.ne.jp/Gasyou/20150606/1433554794

　前回から色々やってみて、どうも上手く行かない様なので色々検討中。

　んで、通常のSoftmax方策＋方策勾配法の枠組みでは、評価値にボーナスを与える方法はNGみたいです。

　そういう訳で、エージェントの実装含めて修正しようかと考えました。

　キーワードは

Off-Policy方策勾配法
重点サンプリング
UCB1風のパラメータへのボーナス加算
ガウスモデル方策

の4つです。

　ただ、いきなり全部実装すると混乱するでしょうから、まずは重点サンプリングから実験してみます。