VS ssp(5五将棋モード)
修正した評価関数をPGLeafで学習させたもの。対局数は11万1千局。
結果、310勝86敗で勝率78.3%。95%信頼区間は73.9〜82.2。最初は勝率85%前後で推移してたんで、結構期待してたんですけどねぇ。
ブログに書いてなかったけど、前にTDLeaf(λ)+Experience Replayで勝率80%まで行ったので、今回のは「今年最高の出来」にはなりませんでした。
ただまぁ、PGLeafでここまで来れたのは、久々に嬉しいです。
ちなみに対sspの勝率は最高96%まで行った事がある*1ので、まだまだ頑張らないといけないんですが。
という訳で、今度は探索深さを全幅3手→全幅5手に深くして学習にリトライします。