Curiosity-driven Exploration by Self-supervised Prediction - GA将？開発日記～王理のその先へ～

　piqcyさんのツイートから発見。

強化学習において、特に高次元になると報酬が得られる機会はとても少なくなる。そこで「好奇心」、つまり新規性のある環境への到達について報酬を設定することで学習速度を上げる試み。これによりベースライン(A3C)よりも高い学習性能を記録することができた。Doomとマリオブラザーズのデモ有 https://t.co/i2SkGUOjE7
— piqcy (@icoxfog417) 2017年5月19日

　
　https://arxiv.org/pdf/1705.05363.pdf

　エージェントに「好奇心」を持たせる事で、強化学習における探査を促進しようという研究らしいです。

　面白そうなんで、とりあえず論文読んでみます。