ARPS*1ですが、遷移確率関数をざっくり学習後に、局面評価関数(ゼロから学習)と遷移確率関数(パラメータ引き継ぎ)の同時学習をしてみました。あ、5五将棋です。 で、結果。対sspの1秒将棋で266-0-113の勝率70.2%。 明らかに弱くなってるんで、ARPSは断…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。