連続対戦テストの結果
学習後同一プロセス内だと556-4-418、将棋所だと394-0-295。勝率も95%信頼区間もほぼ一致したんで、セーブ・ロード周りには多分問題無しかと。
という訳で、方策勾配法に戻って学習再開。ちょっとだけ最適化したけど、基本今まで通りです。
学習後同一プロセス内だと556-4-418、将棋所だと394-0-295。勝率も95%信頼区間もほぼ一致したんで、セーブ・ロード周りには多分問題無しかと。
という訳で、方策勾配法に戻って学習再開。ちょっとだけ最適化したけど、基本今まで通りです。