自然TD学習で、状態価値関数の誤差がちゃんと減少する様にはなりました。 んで、こっからさらに2ステップほど計算しなきゃいけない事があるのですが、そっちはまだ見通しが立っていません。 時間的に考えると、今やってるのが電王トーナメントまでのラストの…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。