2013-10-01 書くの忘れてた 開発日記 ↑で書いた「ちゃんと収束する様になった」理由ですが、ψの正規化を実装したら上手く行く様になりました。 具体的には、ψの全要素の絶対値の合計が1になる様に調整してから、TD誤差の近似に使う様にしました。 何でこれで上手く行ったのか理論的な事は不明ですが、とりあえず気になってた現象を押さえ込む事には成功していますし、これで良しとします。