GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

Policy Gradient Methods for Reinforcement Learning with Function Approximation読んだまとめ

 例によって自分用です。

アブストラク

 大規模な強化学習問題を解くには関数近似が必要だ。過去10年で主流だったのは価値関数の近似(と、それをベースにした方策)だった。これは多くの応用において良く働いたが、その手法にはいくつかの限界もある。

 この論文では別の関数近似の手法を示す。それは、(その内部にパラメータを持つ)独立した関数近似器を用いて、確率的な方策を直接記述する手法だ。WilliamsのREINFORCEアルゴリズムは価値関数を用いる強化学習手法より(収束が?)遅い。価値関数を学習し、勾配のバリアンスを予測するのに使うのは高速な学習の為には効果的だ。

1. 方策勾配定理

 関数近似を用いる場合、エージェントの目的の定式化は二つの方法がある。一つは平均報酬を用いる方法で、もう一つは指定された開始状態s_0とそこから続く系列の長期報酬を用いる方法だ*1

定理1(方策勾配)

 任意のMDP、平均報酬または開始状態定式化において次の式が成り立つ。

  \frac{\partial \rho}{\partial \theta}=\sum_sd^\pi\left(s\right)\sum_a\frac{\partial \pi\left(s,a\right)}{\partial \theta}Q^\pi\left(s,a\right)   (2)

2. 関数近似を用いた方策勾配

 Q^\pi関数近似器の学習によって得られたケースを考える。もし近似の質が良ければ、式(2)の一部として用い、勾配の方向を示すのに使える。

 f_w: S \times A \rightarrow RQ^\piの近似とし、wはパラメータとする。f_wを次のルールに従って更新するのは自然である。

  \Delta w_t \propto \frac{\partial}{\partial w } \left{ \widehat{Q}^\pi\left(s_t,a_t\right) - f_w\left(s_t,a_t\right) \right}^2 \propto \left{ \widehat{Q}\pi\left(s_t,a_t\right) - f_w\left(s_t,a_t\right) \right}\frac{\partial f_w\left(s_t,a_t\right)}{\partial w}

 ここで\widehat{Q}^\pi\left(s_t,a_t\right)Q^\pi\left(s_t,a_t\right)のバイアスの無い予測(おそらくR_t)。このプロセスが局所最適解に収束すると、次式が成り立つ。

  \sum_s d^\pi\left(s\right)\sum_a \pi\left(s,a\right) \left{ Q^\pi\left(s,a\right) - f_w\left(s,a\right)\right}\frac{\partial f_w\left(s,a\right)}{\partial w}=0 (3)

定理2(関数近似の方策勾配法)

 f_wが式(3)を満たす場合、

  \frac{\partial f_w\left(s,a\right)}{\partial w}=\frac{\partial \pi\left(s,a\right)}{\partial \theta}\frac{1}{\pi\left(s,a\right)'} (4)

 この時

  \frac{\partial \rho}{\partial \theta}=\sum_s d^\pi\left(s\right)\sum_a\frac{\partial \pi\left(s,a\right)}{\partial \theta}f_w\left(s,a\right) (5)

 証明は省略。

3.派生アルゴリズムの応用とアドバンテージ

 例えば、特徴量の線形和を用いるギブス分布の方策について考える。

  \pi\left(s,a\right)=\frac{exp(\theta^T \phi_{sa})}{\sum_b exp(\theta^T \phi_{sb})

 式(4)に当てはめると

  \frac{\partial f_w\left(s,a\right)}{\partial w}=\phi_{sa}-\sum_b \pi\left( s,b\right)\phi_{sb}

 よって、f_wは次の通り。

  f_w\left(s,a\right)=w^T\left{\phi_{sa}-\sum_b \pi\left( s,b\right)\phi_{sb}\right}

言い方を変えると、f_wは各状態に関して平均が0に正規化される点を除いて、方策と同じ特徴で線形である必要がある。

 f_wは各状態において平均0となる。これは、f_wをアドバンテージ関数A^\pi\left(s,a\right)=Q^\pi\left(s,a\right) - V^\pi\left(s\right)と考えるのに都合が良い。

*1:このへんの訳、怪しい