久々の更新
http://d.hatena.ne.jp/Gasyou/20150606/1433554794
前回から色々やってみて、どうも上手く行かない様なので色々検討中。
んで、通常のSoftmax方策+方策勾配法の枠組みでは、評価値にボーナスを与える方法はNGみたいです。
そういう訳で、エージェントの実装含めて修正しようかと考えました。
キーワードは
- Off-Policy方策勾配法
- 重点サンプリング
- UCB1風のパラメータへのボーナス加算
- ガウスモデル方策
の4つです。
ただ、いきなり全部実装すると混乱するでしょうから、まずは重点サンプリングから実験してみます。