Entropy Regularizationの式の導出
https://arxiv.org/pdf/1602.01783.pdf
A3Cの論文にあるEntropy Regularizationの意味が(少しだけ)分かってきたので、実装の準備として微分してみる。
まず、方策に対してエントロピーを考える。
を代入すると
(π・その他の記号の意味は http://gasyou.is-mine.net/archive/GPW2012_P-3.pdf 参照。)
という変形をしたいので、logの底を変換する。
で、ようやく微分の準備が出来たので、後はガシガシと計算。
…そうか、これをコードに落とし込まないといけないのか。大変そうだ。