「確率的パラメータを持つ方策関数に対する方策勾配法」読んだまとめ

ci.nii.ac.jp

概要

　オープンアクセス不可の論文なんで、気になった所だけ書こうと思います。

通常の方策勾配法では、パラメータは「確定的な」ベクトルである。これを、ハイパーパラメータ*1から生成される「確率的な」ベクトルに拡張する。
1. つまり、 $\theta$ の値は（多分）エピソードごとにランダムに変化する。
2. 学習の目的は、 $\nu$ を最適化する事。
方策とする。
1. $p \left( a | s ; \theta \right)$ は、状態 $s$ ・（ランダムに生成された）パラメータ $\theta$ のもとで行動 $a$ を選択する確率。
2. $p \left( \theta | \nu \right)$ は、ハイパーパラメータ $\nu$ のもとでパラメータ $\theta$ が生成される確率。
後は、この方策を $\nu$ に関して微分してやって、方策勾配法でよしなに最適化する。

　こうすると何が嬉しいかと言うと、探索・搾取のトレードオフを自動的に解決出来る事らしいです。学習初期は分散を大きめにとって探索重視、ある程度学習が進んだら自動的に分散が減少していって搾取重視にシフトしていく、と。

PGLeafへの適用

　原論文では $\nu$ に含まれる分散は1つだけの様に読み取れました。つまり、「全てのパラメータ $\theta_i$ に対して、共通の分散を用いる」らしいです。

　ただ、コンピュータ将棋に関しては個々のパラメータに対して分散があった方が良い様に思えます。例えば、「歩1枚の価値はだいたい推測出来ている*2が、持ち駒の6枚目の歩の価値は曖昧*3」という状況が起こり得ると思います。

　という訳で、ハイパーパラメータ $\nu$ は「2（平均、分散）×パラメータの個数」分の要素を持つベクトルにしようと思います。

　後は方策勾配ですが、原論文では連続状態・連続行動問題を扱っているので解析的に求めていました。ただ、PGLeafでは $p \left( a | s ; \theta \right)$ はSoftmax関数とαβ探索・評価関数の組み合わせになるので、多分解析的には解けません。

　具体的には、 $p \left( a | s ; \theta \right)$ は下記の様になります。

$\displaystyle p \left( a | s ; \theta \right) = \frac{\exp \left( evl \left( a, s', \theta) \right) \right)}{\sum_{x \in A \left( s \right)} \exp \left( evl \left( x, y', \theta) \right) \right)}$

　 $s',y'$ はそれぞれ「状態（局面） $s$ から行動（指し手） $a,x$ を指した後の、αβ探索のPV Leafノード」になります。また、 $A\left(s\right)$ は局面 $s$ における合法手の集合です。αβ探索についてはアルファ・ベータ法 - Wikipedia等をご参照下さい。