強化学習の改良案 - GA将？開発日記～王理のその先へ～

　をアイデアメモに書こうかと思ってたんですが、既に前例がありました。

　どういうものかと言うと、強化学習自体のパラメータ*1を強化学習でコントロールしたらどうかな、ってアイデアです。

　名付けて“メタ強化学習”。

　似た様なアイデアはGA*2でも“メタGA”っつーのがあって、こっちはGAのパラメータ*3をGAでコントロールするものです。

　で、さくっとググってみたらありました。Meta-learning in Reinforcement Learningって論文です。

　アブストラクトを読んだ限りでは上手く動いた様ですね。

　ま、既に上手く行った前例があれば何かと便利なので、論文はとりあえず保存しときました。そのうち読みます。

*1:評価関数の様な調整対象のパラメータではなく

*3:突然変異率とか