Sample Efficient Actor-Critic with Experience Replay - GA将？開発日記～王理のその先へ～

　Actor-Criticと方策勾配法・Experience Replayを組み合わせた手法らしい。

　一度読んでみて、GA将に取り入れられそうなら実装しますか。

　あ、それから、前書いた「好奇心」の手法ですが、「報酬がスパースな場合*1に極めて有効」と書いてあったので、高々数十〜数百手で報酬が得られるコンピュータ将棋には導入するモチベーションが乏しいかな、と考え直しました。

　そっちに関しては、当面は見送りという方向で。

/* 以下、2017/05/23 18:50〜追記 */

　3章まで読み終わったので、ポイントになりそうな部分をメモ。

基本的に、深層強化学習の1手法。
1. 行動価値関数Q及び状態価値関数Vの近似にはDNNを用いる。
2. QとVでは、パラメータを共有しているらしい。出力層だけ異なるのか？*2
基本はActor-Critic。
1. Actorの学習は方策勾配法ベース。
2. Criticの学習はQ学習ベース。
Off-Policy化にあたり、Importance Weight Truncationと呼ぶ手法を導入。
1. バイアスとバリアンスのトレードオフ解消の為？
Trust Region Policy Optimization（TRPO）の改良版を導入。
1. 方策パラメータθの（過去の履歴における）加重平均と、現在の方策パラメータθのカルバック・ライブラー・ダイバージェンスから、学習率の自動調整に相当する事をするらしい。*3

　色々勉強しなきゃいけない事が多いですが、ChainerRLにこの論文の手法が実装されているらしい*4ので、一度ソースを読んでみるのも手かも。

　ただ、Pythonは全く分かんないんで、そこから勉強しなきゃ、ですが。

*1:滅多に得られない場合

*2:未確認

*3:まだきちんと理解出来ていない