VS ssp(5五将棋モード)
昨夜から今朝までの分で、対局数は340。
結果は221-0-119で勝率65.0%、95%信頼区間は59.7〜70.1。前よりやや弱くなっていますね。
んで、TDLeaf(λ)・方策勾配法で深さ0〜2までのデータが揃ったんで、表にまとめてみます。全部5五将棋で、対sspの勝率です。括弧内は自己対戦学習での対局数。学習時の対局数が異なるんで公平なデータではないですが、大体の傾向は掴めるかと。
TDLeaf(λ) | 方策勾配法 | |
---|---|---|
全幅0手 | 37.2%(10万局) | 50.3%(65万局) |
全幅1手 | 54.3%(10万局) | 67.4%(17万局) |
全幅2手 | 62.0%(4万局) | 51.5%(2万6千局) 68.3%(4万4千局) 69.1%(6万4千局) 65.0%(7万6千局) |
こうして見てみると、方策勾配法で全幅1手ってのが対局速度と強さのバランスが良さそうですね。
まぁ、本将棋で全幅1手だと1日あたり1万局前後しか対局出来ないんで、多分収束するまで2週間ほど掛かりそうですが。