続 UCB1-TUNED予備実験中
以前は森北出版の「強化学習」に載ってた多碗バンディット問題の条件でやってたんですが、今度はベルヌーイ分布で報酬を決める方式でやってみました。
んで、やっぱりUCB1よりUCB1-TUNEDの方が優秀ですね。
それから、UCB1-TUNEDの式中の1/4って値は、報酬の分散の上界に設定するのが良さそうです。少し小さめ(上界が0.25の時に0.1とか)にすると収束は多少速くなるんですが、時々変な挙動をするんでやめといた方が無難そうです。
さて、これでUCB1-TUNEDの使い方は大体分かったと思うんで、次はGA + UCB1-TUNEDで実験してみます。それが上手く行けばいよいよメタ強化学習です。