VS ssp(5五将棋モード)
昨夜まで約10時間、4万局程学習させたバージョン。TDLeaf(λ)で学習条件は探索が全幅2手+静止探索4手。目標探査率は5%。
で、勝敗は315-?-193で勝率62.0%、95%信頼区間は57.6〜66.2。大分強くなりました。
記念に駒割のパラメータの変化のグラフをアップしてみます。横軸が対局数/100、縦軸が駒の価値です。
まだ収束していない様に見えるんで、もっと強くなる可能性はありますね。とりあえず、今朝まで学習させたパラメータで再度連続対戦させてみます。