GA将?開発日記~王の理とは~

ネタ勢最強を目指して絶賛開発中。

Sample Efficient Actor-Critic with Experience Replay

 https://arxiv.org/abs/1611.01224

 Actor-Criticと方策勾配法・Experience Replayを組み合わせた手法らしい。

 一度読んでみて、GA将に取り入れられそうなら実装しますか。

 あ、それから、前書いた「好奇心」の手法ですが、「報酬がスパースな場合*1に極めて有効」と書いてあったので、高々数十〜数百手で報酬が得られるコンピュータ将棋には導入するモチベーションが乏しいかな、と考え直しました。

 そっちに関しては、当面は見送りという方向で。

/* 以下、2017/05/23 18:50〜追記 */

 3章まで読み終わったので、ポイントになりそうな部分をメモ。

  1. 基本的に、深層強化学習の1手法。
    1. 行動価値関数Q及び状態価値関数Vの近似にはDNNを用いる。
    2. QとVでは、パラメータを共有しているらしい。出力層だけ異なるのか?*2
  2. 基本はActor-Critic。
    1. Actorの学習は方策勾配法ベース。
    2. Criticの学習はQ学習ベース。
  3. Off-Policy化にあたり、Importance Weight Truncationと呼ぶ手法を導入。
    1. バイアスとバリアンスのトレードオフ解消の為?
  4. Trust Region Policy Optimization(TRPO)の改良版を導入。
    1. 方策パラメータθの(過去の履歴における)加重平均と、現在の方策パラメータθのカルバック・ライブラー・ダイバージェンスから、学習率の自動調整に相当する事をするらしい。*3

 色々勉強しなきゃいけない事が多いですが、ChainerRLにこの論文の手法が実装されているらしい*4ので、一度ソースを読んでみるのも手かも。

 ただ、Pythonは全く分かんないんで、そこから勉強しなきゃ、ですが。

*1:滅多に得られない場合

*2:未確認

*3:まだきちんと理解出来ていない

*4:https://research.preferred.jp/2017/02/chainerrl/