TD(λ)にメタ強化学習を組み込み - GA将？開発日記～王理のその先へ～

　id:streakeagle:20071004:1191506391で書いたTD(λ)*1では、λの設定次第で挙動が変わってきていたので、これをメタ強化学習で調整出来ないか試してみました。

　結果、失敗。

　原因を考えてみると、メタエージェント*2に与える報酬*3をエージェントのTD誤差の平均二乗誤差を符号反転したものにしたのですが*4、意図的に学習が遅くなるλを設定し、その結果TD誤差が小さくなるので、不適切なλを使い続ける、という現象が起きているらしいです。

　という訳で、エージェントの受け取った報酬の大小に応じてメタエージェントに与える報酬の量を決めないといけない感じですが、今日はもう時間が無いので明日に回します。

# にしても、開発用マシンのCPUが速いと軽く実験するのがパパッと出来ていいです。
# あと、Vistaはやっぱりツンデレ。ハードが高スペックだと段違いに快適。

*1:TD法に適格度トレースを組み合わせた手法

*2:メタ強化学習でメタパラメータ調整を行うモジュール

*3:良い動作か悪い動作かを示唆する値

*4:要するにTD誤差が小さいほど報酬は大きくなる