GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

メタ強化学習ルーチン、割といい感じ

開発日記

　Q学習では高々40状態程度の簡易迷路しか解けなかったのが、256状態まで増やしてもメタ強化学習有りだと解ける様になりました。

　結構期待出来そうなんで、スグにでも効果を見てみたいんですが、どうしようかなぁ。

　一つの手として、TDLeaf(λ)と組み合わせるってのがありますが、本命はOff-Policy化したPGLeafとの組み合わせです。

　ここは、一旦TDLeaf(λ)とくっつけてみるのが手っ取り早いかな？