UCB1の予備実験 途中経過
以前もやったんですが、そん時は少し間違ってたんで改めて実験。
ラノベを読んでただけって訳じゃないんですよ。裏でコッソリとコンピュータ将棋もやってました*1。
んで、分かった事。
- 定常環境の場合
- UCB1は収束の速さ・収束後の挙動共にεグリーディーより優れる。
- UCB1-TUNEDはUCB1より収束が速い。
- UCB1-TUNEDの式中の1/4という値は、実際の報酬の分散にあわせて設定すると良い。
- 大きすぎると収束が遅くなる。
- 小さすぎると収束は速いものの収束後の挙動が悪くなる*2。
- 非定常環境の場合
- 収束速度はUCB1-TUNED > UCB1 > εグリーディー の順に良い。
- 収束後の挙動はどの方策でも特に変わらない。
それから、行動の価値(≒その行動を選択した場合に得られる報酬の期待値)は最善の行動に関してはほぼ正しい値が得られるが、それ以外の行動に関しては大まかな傾向しか分からない(2番目に良い行動の価値が、4番目に良い行動の価値より低くなったりする)。
これはGA*3+UCB1-TUNEDでメタ強化学習をする場合はちょっと気をつけないといけないでしょうから、頭の隅にでも覚えておきます。