5五将棋モード固有のバグだった
5五将棋の連続対戦はプチ将棋を使わせてもらってますが、以前のバージョンではバグか仕様かで打ち歩詰めは反則負けにならない様になっていた記憶があります。
で、それに合わせて探索ルーチンの方も5五将棋モードの場合は打ち歩詰めは単なる「勝ち」として評価値を計算していた為、学習時にバグっていた模様。
それから、上で書いた4万4千局のパラメータですが、258-?-120で勝率68.3%、95%信頼区間は63.3〜72.9になりました。順調に強くなっていってるみたいで嬉しいです。
とりあえず、パラメータを引き継いで2万局追加で学習させた*1パラメータがあるので、今度はそっちで連続対戦ですね。
*1:Windows UpdateでOSごと再起動したので、一時学習を中断しています