評価関数の出す値が-1から1になるはずがどうも変な値を出してると思ったら、学習率やλが影響していたみたいでした。 元々0.1と0.99だったのを、学習率だけ0.01にしたりλも0.7にしてみたらOKになりました。 結構色々と強化学習関連の経験値が不足している感じ…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。