学習率の調整とか、自己対戦学習時にルートノードからLMRを有効にしたりとか。 …本質的な改良は何も出来てないなぁ。
昨夜から一晩分の結果。対ssp(5五将棋モード)で一手一秒。 結果は154-?-110で勝率58.3%。95%信頼区間は51.4〜71.5。 前(PGLeaf)より弱くなってます。
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。