Policy Gradient Methods for Reinforcement Learning with Function Approximation読んだまとめ

　例によって自分用です。

アブスト ラクト

　大規模な強化学習問題を解くには関数近似が必要だ。過去10年で主流だったのは価値関数の近似（と、それをベースにした方策）だった。これは多くの応用において良く働いたが、その手法にはいくつかの限界もある。

　この論文では別の関数近似の手法を示す。それは、（その内部にパラメータを持つ）独立した関数近似器を用いて、確率的な方策を直接記述する手法だ。WilliamsのREINFORCEアルゴリズムは価値関数を用いる強化学習手法より（収束が？）遅い。価値関数を学習し、勾配のバリアンスを予測するのに使うのは高速な学習の為には効果的だ。

1. 方策勾配定理

　関数近似を用いる場合、エージェントの目的の定式化は二つの方法がある。一つは平均報酬を用いる方法で、もう一つは指定された開始状態 $s_0$ とそこから続く系列の長期報酬を用いる方法だ*1。

定理1（方策勾配）

　任意のMDP、平均報酬または開始状態定式化において次の式が成り立つ。

　　 $\frac{\partial \rho}{\partial \theta}=\sum_sd^\pi\left(s\right)\sum_a\frac{\partial \pi\left(s,a\right)}{\partial \theta}Q^\pi\left(s,a\right) (2)$

2. 関数近似を用いた方策勾配

　 $Q^\pi$ が関数近似器の学習によって得られたケースを考える。もし近似の質が良ければ、式(2)の一部として用い、勾配の方向を示すのに使える。

　 $f_w: S \times A \rightarrow R$ を $Q^\pi$ の近似とし、wはパラメータとする。 $f_w$ を次のルールに従って更新するのは自然である。

　　 $\Delta w_t \propto \frac{\partial}{\partial w } \left{ \widehat{Q}^\pi\left(s_t,a_t\right) - f_w\left(s_t,a_t\right) \right}^2 \propto \left{ \widehat{Q}\pi\left(s_t,a_t\right) - f_w\left(s_t,a_t\right) \right}\frac{\partial f_w\left(s_t,a_t\right)}{\partial w}$

　ここで $\widehat{Q}^\pi\left(s_t,a_t\right)$ は $Q^\pi\left(s_t,a_t\right)$ のバイアスの無い予測（おそらく $R_t$ ）。このプロセスが局所最適解に収束すると、次式が成り立つ。

　　 $\sum_s d^\pi\left(s\right)\sum_a \pi\left(s,a\right) \left{ Q^\pi\left(s,a\right) - f_w\left(s,a\right)\right}\frac{\partial f_w\left(s,a\right)}{\partial w}=0 (3)$

定理2（関数近似の方策勾配法）

　 $f_w$ が式(3)を満たす場合、

　　 $\frac{\partial f_w\left(s,a\right)}{\partial w}=\frac{\partial \pi\left(s,a\right)}{\partial \theta}\frac{1}{\pi\left(s,a\right)'} (4)$

　この時

　　 $\frac{\partial \rho}{\partial \theta}=\sum_s d^\pi\left(s\right)\sum_a\frac{\partial \pi\left(s,a\right)}{\partial \theta}f_w\left(s,a\right) (5)$