GA将?開発日記~原点回帰~

ネタ勢最強を目指して絶賛開発中。

メタ強化学習ルーチン、割といい感じ

 Q学習では高々40状態程度の簡易迷路しか解けなかったのが、256状態まで増やしてもメタ強化学習有りだと解ける様になりました。

 結構期待出来そうなんで、スグにでも効果を見てみたいんですが、どうしようかなぁ。

 一つの手として、TDLeaf(λ)と組み合わせるってのがありますが、本命はOff-Policy化したPGLeafとの組み合わせです。

 ここは、一旦TDLeaf(λ)とくっつけてみるのが手っ取り早いかな?