GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

上の続き

 「設計上の問題点」ですが、「TD誤差 = 目標値 - ボーナス付加後の評価値」としていたのが悪いんじゃないかというのが私の予想です。

 ボーナスは学習が進むにつれて小さくなっていくので、学習時点でのボーナスをあてにしてパラメータを調整していると、後々ボーナスが減少した際に問題が出てくるんじゃないか、と。

 という訳で、「TD誤差 = 目標値 - ボーナス付加前の評価値」に修正してみます。