並列探索の効果
Core i7 4930K(3.4GHz 6コア)マシンで並列探索ルーチンを使用してBonanza 6.0(5手読み)と一晩連続対局。
結果は292-0-212で勝率57.9%、95%信頼区間は53.5〜62.3。
シングルスレッドの場合は300-0-278で勝率51.9%だったので、多分強くなってるはず。
…問題はレーティングが40位しか上がってない事ですね。
チューニングがまだなのでCPU使用率が100%になりませんし、その辺を解決すればもうちょっと強くなるはずです。
ただ、まずはAspiration Searchを実装してからチューニングする予定なので、もうしばらくは並列探索ルーチンと格闘する日が続くかと思います。
それと、学習用マシンで走らせていた全幅3手+静止探索での学習、現時点でBonanza 6.0(5手読み)相手に勝率37%まで来ました。
ざっと計算した結果、1日学習すると勝率が5%上がるので、このペースだと2週間前後で勝率100%になりますね(理論値です)。
という訳で、選手権には「全幅3手+静止探索で強化学習した評価関数」+「並列探索ルーチン」で挑む事になりそうです。
それまでに、floodgateでR2000は達成したいけど、出来るかなぁ…?