GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

方策πのエントロピーにもとづく内発的報酬

 が、もうちょっとで定式化出来そうな気がする。

動機

 自己対局を通じた、コンピュータ将棋/コンピュータ5五将棋の評価関数の強化学習において、より良い報酬を設計したい。

大雑把な考え方

 方策πのエントロピーが、行動選択の前後でどう変化したかをベースに、(勝敗にもとづく)基本報酬とは別にエントロピー変化に応じた内発的報酬をエージェントに与える。

方針

  • エントロピーが減少した → ほぼ一本道のルートに入った → 学習が進んでいる局面だと判断し、(追加で学習する価値が低いので)内発的報酬を少な目にする。
  • エントロピーが増加した → どう指せば良いか良く分からないルートに入った → 学習する価値が高いと判断し、内発的報酬を多目にする。

計算式(案)

 r_b(s,s')が局面sからs'へ遷移した際の内発的報酬、H(s)は局面sのエントロピー

案1:単純に差分を取る。

  r_b(s_t,s_{t+1}) = H(s_{t+1}) - H(s_t)

案2:比率を取る。

  r_b(s_t,s_{t+1}) = \frac{H(s_{t+1})}{H(s_t)}

使い方

 局面s_tからs_{t+1}へ遷移した際に、上記r_b(s_t,s_{t+1})を即時与える。