まず、現在3つの方式での学習を実装しました。 対Bonanza戦でのTDLeaf(λ) 自己対戦でのTDLeaf(λ) 自己対戦でのSelf-Play Bonanza Method んで、今の所2.が一番ましな強さになってるので、選手権まではそれに集中する事にします。1.にもまだ伸びる可能性は感…
対Bonanza戦での学習ですが、グラフを再掲。 (クリックで原寸大表示します) 赤と黄色の系列がそれぞれ先手・後手でのGA将!!!!の勝率なんですが、片方が高い時はもう片方が低い傾向にあります。 これが何を意味しているかというと…何なんでしょうね? 評価…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。