2018-07-10から1日間の記事一覧

2018-07-10

Learning to Explore via Meta-Policy Gradient

後で読む

Learning to Explore via Meta-Policy Gradient ざっと読んだ感じだと Off-Policy学習*1と組み合わせるのが前提のメタ学習アルゴリズム。 Exploration Policyと呼ぶ方策を導入し、これを方策勾配法で学習する。通常の*2方策のパラメータ更新前後の予測報酬…

GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

2018-07-10から1日間の記事一覧

Learning to Explore via Meta-Policy Gradient