方策πのエントロピーにもとづく内発的報酬 - GA将？開発日記～王理のその先へ～

　が、もうちょっとで定式化出来そうな気がする。

　自己対局を通じた、コンピュータ将棋／コンピュータ5五将棋の評価関数の強化学習において、より良い報酬を設計したい。

　方策πのエントロピーが、行動選択の前後でどう変化したかをベースに、（勝敗にもとづく）基本報酬とは別にエントロピー変化に応じた内発的報酬をエージェントに与える。

　 $r_b(s,s')$ が局面sからs'へ遷移した際の内発的報酬、 $H(s)$ は局面sのエントロピー。

　　 $r_b(s_t,s_{t+1}) = H(s_{t+1}) - H(s_t)$

　　 $r_b(s_t,s_{t+1}) = \frac{H(s_{t+1})}{H(s_t)}$

　局面 $s_t$ から $s_{t+1}$ へ遷移した際に、上記 $r_b(s_t,s_{t+1})$ を即時与える。