続 UCB1-TUNED予備実験中 - GA将？開発日記～王理のその先へ～

以前は森北出版の「強化学習」に載ってた多碗バンディット問題の条件でやってたんですが、今度はベルヌーイ分布で報酬を決める方式でやってみました。

んで、やっぱりUCB1よりUCB1-TUNEDの方が優秀ですね。

それから、UCB1-TUNEDの式中の1/4って値は、報酬の分散の上界に設定するのが良さそうです。少し小さめ（上界が0.25の時に0.1とか）にすると収束は多少速くなるんですが、時々変な挙動をするんでやめといた方が無難そうです。

さて、これでUCB1-TUNEDの使い方は大体分かったと思うんで、次はGA + UCB1-TUNEDで実験してみます。それが上手く行けばいよいよメタ強化学習です。