Sample Efficient Actor-Critic with Experience Replay
https://arxiv.org/abs/1611.01224
Actor-Criticと方策勾配法・Experience Replayを組み合わせた手法らしい。
一度読んでみて、GA将に取り入れられそうなら実装しますか。
あ、それから、前書いた「好奇心」の手法ですが、「報酬がスパースな場合*1に極めて有効」と書いてあったので、高々数十〜数百手で報酬が得られるコンピュータ将棋には導入するモチベーションが乏しいかな、と考え直しました。
そっちに関しては、当面は見送りという方向で。
/* 以下、2017/05/23 18:50〜追記 */
3章まで読み終わったので、ポイントになりそうな部分をメモ。
- 基本的に、深層強化学習の1手法。
- 行動価値関数Q及び状態価値関数Vの近似にはDNNを用いる。
- QとVでは、パラメータを共有しているらしい。出力層だけ異なるのか?*2
- 基本はActor-Critic。
- Actorの学習は方策勾配法ベース。
- Criticの学習はQ学習ベース。
- Off-Policy化にあたり、Importance Weight Truncationと呼ぶ手法を導入。
- バイアスとバリアンスのトレードオフ解消の為?
- Trust Region Policy Optimization(TRPO)の改良版を導入。
色々勉強しなきゃいけない事が多いですが、ChainerRLにこの論文の手法が実装されているらしい*4ので、一度ソースを読んでみるのも手かも。
ただ、Pythonは全く分かんないんで、そこから勉強しなきゃ、ですが。