「確率的パラメータを持つ方策関数に対する方策勾配法」読んだまとめ
概要
オープンアクセス不可の論文なんで、気になった所だけ書こうと思います。
- 通常の方策勾配法では、パラメータは「確定的な」ベクトルである。これを、ハイパーパラメータ*1から生成される「確率的な」ベクトルに拡張する。
- つまり、の値は(多分)エピソードごとにランダムに変化する。
- 学習の目的は、を最適化する事。
- 方策とする。
- は、状態・(ランダムに生成された)パラメータのもとで行動を選択する確率。
- は、ハイパーパラメータのもとでパラメータが生成される確率。
- 後は、この方策をに関して微分してやって、方策勾配法でよしなに最適化する。
こうすると何が嬉しいかと言うと、探索・搾取のトレードオフを自動的に解決出来る事らしいです。学習初期は分散を大きめにとって探索重視、ある程度学習が進んだら自動的に分散が減少していって搾取重視にシフトしていく、と。
PGLeafへの適用
原論文ではに含まれる分散は1つだけの様に読み取れました。つまり、「全てのパラメータに対して、共通の分散を用いる」らしいです。
ただ、コンピュータ将棋に関しては個々のパラメータに対して分散があった方が良い様に思えます。例えば、「歩1枚の価値はだいたい推測出来ている*2が、持ち駒の6枚目の歩の価値は曖昧*3」という状況が起こり得ると思います。
という訳で、ハイパーパラメータは「2(平均、分散)×パラメータの個数」分の要素を持つベクトルにしようと思います。
後は方策勾配ですが、原論文では連続状態・連続行動問題を扱っているので解析的に求めていました。ただ、PGLeafでははSoftmax関数とαβ探索・評価関数の組み合わせになるので、多分解析的には解けません。
具体的には、は下記の様になります。
はそれぞれ「状態(局面)から行動(指し手)を指した後の、αβ探索のPV Leafノード」になります。また、は局面における合法手の集合です。αβ探索についてはアルファ・ベータ法 - Wikipedia等をご参照下さい。
また、となります。(は、局面sの特徴量*4)です。)
これを解析的に解くのは難しそう(無理?)なので、に関するモンテカルロ積分をしてやって解く事にします。
具体的にはM回*5のサンプリングを行い、
とします。
が消えちゃったので微分しようが無いですね。困りました。
かなり複雑な関数の積分をしたいのですが、自力では出来なくて質… - 人力検索はてなで質問しました。ベストな回答には1,000pt進呈しますので、分かる方がいらっしゃればご回答お願い致します。