2008-12-12 TDLeaf(λ)を方策オフに修正する方法が間違ってたかも 開発日記 森北出版の「強化学習」を読んでたら、Q学習の事をちと誤解していたところを発見。 これは、もう一度リバーシに戻ってテストし直した方がいいかもしれません。