GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

学習用マシンをいじってたら時間が・・・

開発日記

　という訳で今日は簡単に。

　やったのは、リバーシのTD(λ)*1にメタ強化学習を組み合わせるだけ。既存のクラスを切り貼りしただけです。

　とりあえずメタ学習するのはε*2だけにして、λ*3は固定。

　で、λを0.0〜1.0まで変化させた数パターンで一晩学習させてみます。学習用マシンが静かになったので、結構快適。

*1:適格度トレースありのTD法

*2:ランダムに行動を選択する確率

*3:適格度トレースに関連するメタパラメータ。大きいほど先の状態のTD誤差が前の状態の価値に与える影響が大きくなる。