Policy Gradient Methods for Reinforcement Learning with Function Approximation読んだまとめ
例によって自分用です。
アブストラクト
大規模な強化学習問題を解くには関数近似が必要だ。過去10年で主流だったのは価値関数の近似(と、それをベースにした方策)だった。これは多くの応用において良く働いたが、その手法にはいくつかの限界もある。
この論文では別の関数近似の手法を示す。それは、(その内部にパラメータを持つ)独立した関数近似器を用いて、確率的な方策を直接記述する手法だ。WilliamsのREINFORCEアルゴリズムは価値関数を用いる強化学習手法より(収束が?)遅い。価値関数を学習し、勾配のバリアンスを予測するのに使うのは高速な学習の為には効果的だ。
1. 方策勾配定理
関数近似を用いる場合、エージェントの目的の定式化は二つの方法がある。一つは平均報酬を用いる方法で、もう一つは指定された開始状態とそこから続く系列の長期報酬を用いる方法だ*1。
定理1(方策勾配)
任意のMDP、平均報酬または開始状態定式化において次の式が成り立つ。
2. 関数近似を用いた方策勾配
が関数近似器の学習によって得られたケースを考える。もし近似の質が良ければ、式(2)の一部として用い、勾配の方向を示すのに使える。
をの近似とし、wはパラメータとする。を次のルールに従って更新するのは自然である。
ここではのバイアスの無い予測(おそらく)。このプロセスが局所最適解に収束すると、次式が成り立つ。
3.派生アルゴリズムの応用とアドバンテージ
例えば、特徴量の線形和を用いるギブス分布の方策について考える。
式(4)に当てはめると
よって、は次の通り。
言い方を変えると、は各状態に関して平均が0に正規化される点を除いて、方策と同じ特徴で線形である必要がある。
は各状態において平均0となる。これは、をアドバンテージ関数と考えるのに都合が良い。
*1:このへんの訳、怪しい