本将棋をオンラインPGLeafで学習させたのをsspと連続対局させていますが、序盤から評価値が1000点を超えたりしていて、ちょっとおかしい状態です。 んで、表題のL2正則化を実装して、現在5五将棋でテスト用に学習中。 大体良さ気な正則化係数が分かったら、…
それぞれ自己対局100万局で学習させた結果の、対sspの勝率です。横軸が自己対局数で、縦軸が対ssp(本将棋モード)の勝率です。 んで、残念ながらPGLeafとSR-PGLeafの差はほとんど無いです。 以前に実験した時は大分差があったと思っていたのですが、たまた…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。