Policy Gradient Methods for Reinforcement Learning with Function Approximation読んだまとめ

開発日記メモ

例によって自分用です。アブストラクト大規模な強化学習問題を解くには関数近似が必要だ。過去10年で主流だったのは価値関数の近似（と、それをベースにした方策）だった。これは多くの応用において良く働いたが、その手法にはいくつかの限界もある。この…

そう言えば論文

開発日記

この前書いた「自然方策勾配法に基づくオフポリシー型強化学習法」ですが、買って読んでみました。さっぱり理解出来ませんでしたが、論文中で関数近似と方策勾配法を組み合わせた手法*1があると書かれていたので、今度はそっちの論文を読んでみます。例に…

開発日記

方策勾配法が動くめどは立たず、かと言って他にアイデアがあるわけでも無く。どうしましょうねぇ。毎度ながら、ピンチです。