Curiosity-driven Exploration by Self-supervised Prediction
piqcyさんのツイートから発見。
強化学習において、特に高次元になると報酬が得られる機会はとても少なくなる。そこで「好奇心」、つまり新規性のある環境への到達について報酬を設定することで学習速度を上げる試み。これによりベースライン(A3C)よりも高い学習性能を記録することができた。Doomとマリオブラザーズのデモ有 https://t.co/i2SkGUOjE7
— piqcy (@icoxfog417) 2017年5月19日
https://arxiv.org/pdf/1705.05363.pdf
エージェントに「好奇心」を持たせる事で、強化学習における探査を促進しようという研究らしいです。
面白そうなんで、とりあえず論文読んでみます。