プランAですが、本命は「モンテカルロサンプリングを用いて行動価値関数の勾配を求める」方式なんですが、とりあえず妥協して厳密に勾配を求める方式に変更。 んで、Bootstrap部分は手を加えてないので正常動作。Q(λ)はまだバグ持ち… 現在は三目並べモードで…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。