メタ強化学習ルーチン、割といい感じ
Q学習では高々40状態程度の簡易迷路しか解けなかったのが、256状態まで増やしてもメタ強化学習有りだと解ける様になりました。
結構期待出来そうなんで、スグにでも効果を見てみたいんですが、どうしようかなぁ。
一つの手として、TDLeaf(λ)と組み合わせるってのがありますが、本命はOff-Policy化したPGLeafとの組み合わせです。
ここは、一旦TDLeaf(λ)とくっつけてみるのが手っ取り早いかな?
Q学習では高々40状態程度の簡易迷路しか解けなかったのが、256状態まで増やしてもメタ強化学習有りだと解ける様になりました。
結構期待出来そうなんで、スグにでも効果を見てみたいんですが、どうしようかなぁ。
一つの手として、TDLeaf(λ)と組み合わせるってのがありますが、本命はOff-Policy化したPGLeafとの組み合わせです。
ここは、一旦TDLeaf(λ)とくっつけてみるのが手っ取り早いかな?