2007-10-21 学習用マシンをいじってたら時間が・・・ 開発日記 という訳で今日は簡単に。 やったのは、リバーシのTD(λ)*1にメタ強化学習を組み合わせるだけ。既存のクラスを切り貼りしただけです。 とりあえずメタ学習するのはε*2だけにして、λ*3は固定。 で、λを0.0〜1.0まで変化させた数パターンで一晩学習させてみます。学習用マシンが静かになったので、結構快適。 *1:適格度トレースありのTD法 *2:ランダムに行動を選択する確率 *3:適格度トレースに関連するメタパラメータ。大きいほど先の状態のTD誤差が前の状態の価値に与える影響が大きくなる。