2008-02-10 上の続き 開発日記 「設計上の問題点」ですが、「TD誤差 = 目標値 - ボーナス付加後の評価値」としていたのが悪いんじゃないかというのが私の予想です。 ボーナスは学習が進むにつれて小さくなっていくので、学習時点でのボーナスをあてにしてパラメータを調整していると、後々ボーナスが減少した際に問題が出てくるんじゃないか、と。 という訳で、「TD誤差 = 目標値 - ボーナス付加前の評価値」に修正してみます。