エントロピー正則化の勾配計算(修正済み)
policy gradientがexploration不足のまま決定的になりすぎてしまう場合、行動分布のentropyを最大化する項を正則化として加えるという方法がありますが、試してますでしょうか?
— mooopan (@mooopan) 2018年11月24日
Twitterで@mooopanさんに教わった手法ですが、微分がちょいとややこしそうなのでメモも兼ねて書いておきます。
まず、参考論文は [1602.01783] Asynchronous Methods for Deep Reinforcement Learning です。
上記論文によると、下記の式を使って評価関数パラメータθを更新すれば良い様です。
ここで、第一項は通常の方策勾配法の更新式と一緒なので飛ばし、H(・)はエントロピーなので下記の通りになります。
〈2018/11/26 ここから修正(Σの前の-が抜けていました)〉
〈修正ここまで〉
は足し算なので中の項の微分だけしていきます。
は既知なので、だけ計算。これは簡単です。
んで、代入して整理した最終結果。
意外とスッキリした式になりましたね。という訳で、今日はここまで!