Discounted UCB1-tuned+実装完了
https://www.lri.fr/~sebag/Slides/Venice/Kocsis.pdf
スライドの式を「多分こんな感じだろう」って判断して適当に実装&適当に実験。
非定常な10本腕バンディット問題を解かせてみた感じだと、割引率0.999とか0.99だとUCB1より明らかに良い感じ。ただし、割引率を下げ過ぎると*1、とたんに性能が悪くなる様です。
後、スライドだとって項があるけど、これだとが0.5付近の行動を選びやすくなる様な気が… 私がどっか誤解してる?
*1:0.9とか0.75とか