以前書いたテストの様子を見てると、序盤の評価値の変化がほとんど無いのがおかしかったです。 んで、ちょっと思い付いて直線探索を実装。これで、学習率が0.001なら学習前後で誤差が0.1%だけ減少する様になりました。 それから、TD(λ)のλを0.7から0.99に修…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。