上の続き - GA将？開発日記～王理のその先へ～

　「設計上の問題点」ですが、「TD誤差 = 目標値 - ボーナス付加後の評価値」としていたのが悪いんじゃないかというのが私の予想です。

　ボーナスは学習が進むにつれて小さくなっていくので、学習時点でのボーナスをあてにしてパラメータを調整していると、後々ボーナスが減少した際に問題が出てくるんじゃないか、と。

　という訳で、「TD誤差 = 目標値 - ボーナス付加前の評価値」に修正してみます。