探索深さと棋力向上の関係
学習時の全幅深さを0手〜2手の範囲で、学習時間と強さ向上の関係を調べてみました。対象のゲームは5五将棋で、自己対戦で学習した後のパラメータを使って、対sspの勝率で強さがどうなっているかを測っています。sspとの対局条件は、双方シングルスレッド・Ponder無し、秒読み1秒です。
全幅深さ | 対局数 | 学習日数 | 勝敗 | 勝率 | 95%信頼区間 |
---|---|---|---|---|---|
0手 | 849000 | 0.5 | 384-0-562 | 40.6 | 37.4〜43.8 |
1手 | 570000 | 1.4 | 209-0-267 | 43.9 | 39.4〜48.5 |
1手 | 786000 | 1.9 | 258-0-340 | 43.1 | 39.1〜47.2 |
1手 | 1065800 | 2.4 | 467-0-527 | 47.0 | 43.8〜50.1 |
2手 | 126800 | 1.9 | 429-0-550 | 43.8 | 40.7〜47.0 |
2手 | 236000 | 3.0 | 358-0-361 | 49.8 | 46.1〜53.5 |
ものすごくいい加減なデータのとり方ですが、大体こんな傾向でしょうか。
- 学習日数が同じなら、全幅深さの多少の差は関係ない(かもしれない)。
- 全幅深さを増やすほど、伸び代が大きくなっている(かもしれない)。
一度ちゃんと計測すべきでしょうが、とりあえず今は時間が無いのでこういう結論にしときます。