UCB1の予備実験途中経過 - GA将？開発日記～王理のその先へ～

以前もやったんですが、そん時は少し間違ってたんで改めて実験。

ラノベを読んでただけって訳じゃないんですよ。裏でコッソリとコンピュータ将棋もやってました*1。

んで、分かった事。

それから、行動の価値（≒その行動を選択した場合に得られる報酬の期待値）は最善の行動に関してはほぼ正しい値が得られるが、それ以外の行動に関しては大まかな傾向しか分からない（2番目に良い行動の価値が、4番目に良い行動の価値より低くなったりする）。

これはGA*3＋UCB1-TUNEDでメタ強化学習をする場合はちょっと気をつけないといけないでしょうから、頭の隅にでも覚えておきます。

*1:実際にはちまちました実験なんでまとめて書く事にしただけなんですが

*2:εグリーディーでεを大きくした場合と、大体同じ傾向の変化をする