2011-11-24 直線探索を実装 開発日記 以前書いたテストの様子を見てると、序盤の評価値の変化がほとんど無いのがおかしかったです。 んで、ちょっと思い付いて直線探索を実装。これで、学習率が0.001なら学習前後で誤差が0.1%だけ減少する様になりました。 それから、TD(λ)のλを0.7から0.99に修正。序盤〜中盤の学習が遅いのを、λの値を変えて誤魔化そうって魂胆です。 とりあえずこの設定で一晩走らせてみます。