GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

強化学習の改良案

 をアイデアメモに書こうかと思ってたんですが、既に前例がありました。

 どういうものかと言うと、強化学習自体のパラメータ*1強化学習でコントロールしたらどうかな、ってアイデアです。

 名付けて“メタ強化学習”。

 似た様なアイデアはGA*2でも“メタGA”っつーのがあって、こっちはGAのパラメータ*3をGAでコントロールするものです。

 で、さくっとググってみたらありました。Meta-learning in Reinforcement Learningって論文です。

 アブストラクトを読んだ限りでは上手く動いた様ですね。

 ま、既に上手く行った前例があれば何かと便利なので、論文はとりあえず保存しときました。そのうち読みます。

*1:評価関数の様な調整対象のパラメータではなく

*2:遺伝的アルゴリズム

*3:突然変異率とか