2020-01-05 方策πのエントロピーにもとづく内発的報酬 開発日記 アイデアメモ が、もうちょっとで定式化出来そうな気がする。 動機 自己対局を通じた、コンピュータ将棋/コンピュータ5五将棋の評価関数の強化学習において、より良い報酬を設計したい。 大雑把な考え方 方策πのエントロピーが、行動選択の前後でどう変化したかをベースに、(勝敗にもとづく)基本報酬とは別にエントロピー変化に応じた内発的報酬をエージェントに与える。 方針 エントロピーが減少した → ほぼ一本道のルートに入った → 学習が進んでいる局面だと判断し、(追加で学習する価値が低いので)内発的報酬を少な目にする。 エントロピーが増加した → どう指せば良いか良く分からないルートに入った → 学習する価値が高いと判断し、内発的報酬を多目にする。 計算式(案) が局面sからs'へ遷移した際の内発的報酬、は局面sのエントロピー。 案1:単純に差分を取る。 案2:比率を取る。 使い方 局面からへ遷移した際に、上記を即時与える。