GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

Discounted UCB1-tuned+実装完了

 https://www.lri.fr/~sebag/Slides/Venice/Kocsis.pdf

 スライドの式を「多分こんな感じだろう」って判断して適当に実装&適当に実験。

 非定常な10本腕バンディット問題を解かせてみた感じだと、割引率0.999とか0.99だとUCB1より明らかに良い感じ。ただし、割引率を下げ過ぎると*1、とたんに性能が悪くなる様です。

 後、スライドだと\mu_{it}(1-\mu_{it})って項があるけど、これだと\mu_{it}が0.5付近の行動を選びやすくなる様な気が… 私がどっか誤解してる?

*1:0.9とか0.75とか