GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

学習用マシンをいじってたら時間が・・・

 という訳で今日は簡単に。

 やったのは、リバーシのTD(λ)*1にメタ強化学習を組み合わせるだけ。既存のクラスを切り貼りしただけです。

 とりあえずメタ学習するのはε*2だけにして、λ*3は固定。

 で、λを0.0〜1.0まで変化させた数パターンで一晩学習させてみます。学習用マシンが静かになったので、結構快適。

*1:適格度トレースありのTD法

*2:ランダムに行動を選択する確率

*3:適格度トレースに関連するメタパラメータ。大きいほど先の状態のTD誤差が前の状態の価値に与える影響が大きくなる。