2010-10-14から1日間の記事一覧
例によって自分用です。 アブストラクト 大規模な強化学習問題を解くには関数近似が必要だ。過去10年で主流だったのは価値関数の近似(と、それをベースにした方策)だった。これは多くの応用において良く働いたが、その手法にはいくつかの限界もある。 この…
この前書いた「自然方策勾配法に基づくオフポリシー型強化学習法」ですが、買って読んでみました。 さっぱり理解出来ませんでしたが、論文中で関数近似と方策勾配法を組み合わせた手法*1があると書かれていたので、今度はそっちの論文を読んでみます。 例に…
方策勾配法が動くめどは立たず、かと言って他にアイデアがあるわけでも無く。 どうしましょうねぇ。毎度ながら、ピンチです。