カルマンフィルタを用いた強化学習
Kalman Temporal Differencesという、TD法とカルマンフィルタを組み合わせた手法は存在する様なのですが、方策勾配法でも同様の事が出来ないかと検討中。
- 作者: 足立修一,丸田一郎
- 出版社/メーカー: 東京電機大学出版局
- 発売日: 2012/10/10
- メディア: 単行本(ソフトカバー)
- 購入: 3人 クリック: 3回
- この商品を含むブログ (5件) を見る
現在はこの本を買って勉強中ですが、制御理論に関してはズブの素人なので難しい事この上無いです。
まぁ、1ヶ月程度かけてボチボチと理解していくつもりです。
ちなみにこれはプランBで、これとは別のプランAも並行して実装中なんですが、そっちは実験が上手く行ったらブログに書きます。