メタ強化学習の補足 - GA将？開発日記～王理のその先へ～

まず、予備実験として（メタ強化学習無しで）εを0.001から1.0まで少しずつ変化させて、得られる報酬を調べてみました。

で、どうやらこのケースでは、εと報酬のグラフは単峰性で頂上付近が滑らかになってる様です。ぶっちゃけて言えば結構簡単な問題らしい、と。

それからメタ強化学習での学習経過のグラフ。

上のグラフは横軸が（メタエージェント視点での）エピソード数、縦軸がεとメタエージェントが得た報酬。εは左の軸で報酬は右の軸です。

εのグラフが結構上下していますが、GAで世代交代するごとにUCB1-TUNED部分の情報をクリアしている関係でしょう。実用上問題になる様なら、世代交代する間隔を延ばして対処します。

下のグラフはεと報酬の分布図。横軸がεで縦軸が報酬。εの軸は対数表示になってます。

εが0.01付近の分布が不自然に見えますが、予備実験の結果と一致しますので元々こんな感じになるんでしょう。多分。

さて、次はどうしようかな。エージェントの方策をεグリーディーからソフトマックスに変化させてやってみるか、それとも一気に三目並べでメタ強化学習をするか。ちょっと考えてみます。