Processing math: 100%

GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

方策πのエントロピーにもとづく内発的報酬

 が、もうちょっとで定式化出来そうな気がする。

動機

 自己対局を通じた、コンピュータ将棋/コンピュータ5五将棋の評価関数の強化学習において、より良い報酬を設計したい。

大雑把な考え方

 方策πのエントロピーが、行動選択の前後でどう変化したかをベースに、(勝敗にもとづく)基本報酬とは別にエントロピー変化に応じた内発的報酬をエージェントに与える。

方針

  • エントロピーが減少した → ほぼ一本道のルートに入った → 学習が進んでいる局面だと判断し、(追加で学習する価値が低いので)内発的報酬を少な目にする。
  • エントロピーが増加した → どう指せば良いか良く分からないルートに入った → 学習する価値が高いと判断し、内発的報酬を多目にする。

計算式(案)

 rb(s,s)が局面sからs'へ遷移した際の内発的報酬、H(s)は局面sのエントロピー

案1:単純に差分を取る。

  rb(st,st+1)=H(st+1)H(st)

案2:比率を取る。

  rb(st,st+1)=H(st+1)H(st)

使い方

 局面stからst+1へ遷移した際に、上記rb(st,st+1)を即時与える。