をアイデアメモに書こうかと思ってたんですが、既に前例がありました。
どういうものかと言うと、強化学習自体のパラメータ*1を強化学習でコントロールしたらどうかな、ってアイデアです。
名付けて“メタ強化学習”。
似た様なアイデアはGA*2でも“メタGA”っつーのがあって、こっちはGAのパラメータ*3をGAでコントロールするものです。
で、さくっとググってみたらありました。Meta-learning in Reinforcement Learningって論文です。
アブストラクトを読んだ限りでは上手く動いた様ですね。
ま、既に上手く行った前例があれば何かと便利なので、論文はとりあえず保存しときました。そのうち読みます。