GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

あれ、温度パラメータって修正不要?

 9/17の日記で書いた事、間違ってるかも。

>ボルツマン分布の温度も方策パラメータなんで、これも方策勾配法で調整してやる必要があるんじゃないかと。

 ひょっとしたら、方策勾配法を使えば温度固定って条件下で最適なパラメータに落ち着くかも。

 と言うか、expの底はe固定で、他の数の累乗とかに修正する必要が無いのと同じで、温度パラメータも定数と見なしていいのかも。

 まぁ、やってみないと分からないんで、まずは多碗バンディット問題*1あたりで試してみる必要がありますね。

# この日記は徹夜明けの回ってない頭で書いてるんで、ひょっとしたらどっか間違ってるかもしれません。

*1:UCB-1とかの解説でよく出てくる、スロットマシンの当たり台を探す問題。強化学習問題の簡単な例としてよく使われる。