GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

続 UCB1-TUNED予備実験中

以前は森北出版の「強化学習」に載ってた多碗バンディット問題の条件でやってたんですが、今度はベルヌーイ分布で報酬を決める方式でやってみました。

んで、やっぱりUCB1よりUCB1-TUNEDの方が優秀ですね。

それから、UCB1-TUNEDの式中の1/4って値は、報酬の分散の上界に設定するのが良さそうです。少し小さめ(上界が0.25の時に0.1とか)にすると収束は多少速くなるんですが、時々変な挙動をするんでやめといた方が無難そうです。

さて、これでUCB1-TUNEDの使い方は大体分かったと思うんで、次はGA + UCB1-TUNEDで実験してみます。それが上手く行けばいよいよメタ強化学習です。