TD(λ)にメタ強化学習を組み込み
id:streakeagle:20071004:1191506391で書いたTD(λ)*1では、λの設定次第で挙動が変わってきていたので、これをメタ強化学習で調整出来ないか試してみました。
結果、失敗。
原因を考えてみると、メタエージェント*2に与える報酬*3をエージェントのTD誤差の平均二乗誤差を符号反転したものにしたのですが*4、意図的に学習が遅くなるλを設定し、その結果TD誤差が小さくなるので、不適切なλを使い続ける、という現象が起きているらしいです。
という訳で、エージェントの受け取った報酬の大小に応じてメタエージェントに与える報酬の量を決めないといけない感じですが、今日はもう時間が無いので明日に回します。
# にしても、開発用マシンのCPUが速いと軽く実験するのがパパッと出来ていいです。
# あと、Vistaはやっぱりツンデレ。ハードが高スペックだと段違いに快適。