GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

VS ssp(5五将棋モード)

 昨夜から今朝までの分で、対局数は340。

 結果は221-0-119で勝率65.0%、95%信頼区間は59.7〜70.1。前よりやや弱くなっていますね。

 んで、TDLeaf(λ)・方策勾配法で深さ0〜2までのデータが揃ったんで、表にまとめてみます。全部5五将棋で、対sspの勝率です。括弧内は自己対戦学習での対局数。学習時の対局数が異なるんで公平なデータではないですが、大体の傾向は掴めるかと。

TDLeaf(λ) 方策勾配法
全幅0手 37.2%(10万局) 50.3%(65万局)
全幅1手 54.3%(10万局) 67.4%(17万局)
全幅2手 62.0%(4万局) 51.5%(2万6千局)
68.3%(4万4千局)
69.1%(6万4千局)
65.0%(7万6千局)

 こうして見てみると、方策勾配法で全幅1手ってのが対局速度と強さのバランスが良さそうですね。

 まぁ、本将棋で全幅1手だと1日あたり1万局前後しか対局出来ないんで、多分収束するまで2週間ほど掛かりそうですが。