評価関数修正後に学習率を0.1,0.05,0.01,0.005の4パターン走らせてたんですが、パラメータをよく見てみるとどれも変に学習していました。
具体的に書くと、駒割や王将の移動範囲はそこそこまともなんですが、絶対位置や相対位置のパラメータは変になっている、という状況でした。
で、原因を考えてみると、位置のパラメータは使用頻度が低いのと学習率が高いのが原因になっていて、ある一局で使用したパラメータがその勝敗に応じて変化しすぎているんじゃないかと予想。
そういう訳で学習率を0.001〜0.000001まで4パターンでリトライしてみます。