自然TD学習ですが、相変わらず難航しています。 一応、「TD誤差の推定が上手く出来ていない」という問題点は分かっているんですが、一向に対策が思い付きません。 論文は穴が空くほど読み込んだので、アルゴリズム自体は間違ってないとは思うのですが… 「方…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。