GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2010-10-14から1日間の記事一覧

Policy Gradient Methods for Reinforcement Learning with Function Approximation読んだまとめ

例によって自分用です。 アブストラクト 大規模な強化学習問題を解くには関数近似が必要だ。過去10年で主流だったのは価値関数の近似(と、それをベースにした方策)だった。これは多くの応用において良く働いたが、その手法にはいくつかの限界もある。 この…

そう言えば論文

この前書いた「自然方策勾配法に基づくオフポリシー型強化学習法」ですが、買って読んでみました。 さっぱり理解出来ませんでしたが、論文中で関数近似と方策勾配法を組み合わせた手法*1があると書かれていたので、今度はそっちの論文を読んでみます。 例に…

次回選手権まで残り200日なわけですが

方策勾配法が動くめどは立たず、かと言って他にアイデアがあるわけでも無く。 どうしましょうねぇ。毎度ながら、ピンチです。