GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

Learning to Explore via Meta-Policy Gradient

 Learning to Explore via Meta-Policy Gradient

 ざっと読んだ感じだと

  • Off-Policy学習*1と組み合わせるのが前提のメタ学習アルゴリズム
  • Exploration Policyと呼ぶ方策を導入し、これを方策勾配法で学習する。
  • 通常の*2方策のパラメータ更新前後の予測報酬の差を計算し、これを最大化する様にExploration Policyを学習する。

という方式らしいです。

 コンピュータ将棋に応用可能かどうかは分かりませんが、面白いアイデアだと思うので、後でちゃんと読んでみます。

*1:Q学習やDDPG等

*2:学習対象の