これでTDLeaf(λ)になりました。 んで、前に方策勾配法でやったのと同じ評価項目で、TDLeaf(λ)を使って学習中。 明日朝にはある程度収束していると思うので、そしたらsspとスパーリングです。
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。