GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

うーん…

 自然TD学習ですが、相変わらず難航しています。

 一応、「TD誤差の推定が上手く出来ていない」という問題点は分かっているんですが、一向に対策が思い付きません。

 論文は穴が空くほど読み込んだので、アルゴリズム自体は間違ってないとは思うのですが…

 「方策の対数微分が、TD誤差推定器の基底として不適切」って可能性もありますが、それだと論文の手法自体を否定する事になりますし…

 何だろうなぁ、何なんだろうなぁ、上手く行かない理由は。