9/17の日記で書いた事、間違ってるかも。
>ボルツマン分布の温度も方策パラメータなんで、これも方策勾配法で調整してやる必要があるんじゃないかと。
ひょっとしたら、方策勾配法を使えば温度固定って条件下で最適なパラメータに落ち着くかも。
と言うか、expの底はe固定で、他の数の累乗とかに修正する必要が無いのと同じで、温度パラメータも定数と見なしていいのかも。
まぁ、やってみないと分からないんで、まずは多碗バンディット問題*1あたりで試してみる必要がありますね。
# この日記は徹夜明けの回ってない頭で書いてるんで、ひょっとしたらどっか間違ってるかもしれません。