GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

うーん…

開発日記

　自然TD学習ですが、相変わらず難航しています。

　一応、「TD誤差の推定が上手く出来ていない」という問題点は分かっているんですが、一向に対策が思い付きません。

　論文は穴が空くほど読み込んだので、アルゴリズム自体は間違ってないとは思うのですが…

　「方策の対数微分が、TD誤差推定器の基底として不適切」って可能性もありますが、それだと論文の手法自体を否定する事になりますし…

　何だろうなぁ、何なんだろうなぁ、上手く行かない理由は。