2007-10-03 適格度トレースの実験準備 開発日記 適格度トレースというのは、モンテカルロ法とTD法の中間の動作をさせる為のもので、学習速度が向上するらしいです。 ただ、いきなりリバーシで使うと訳わかんなくなりそうなので、まずは簡単なタスクでやってみる事にしました。 で、今日はその準備。とりあえず普通のTD法では動作しました。以上。