学習ルーチンをちょっと修正
まず、学習前後の評価値と誤差の変化を見てみました。
すると、序盤は誤差の減少が少なく、終盤に近付くにつれて学習率以上に大きくなっていました。
これは、序盤から順にパラメータを修正していくので、終盤の修正の頃には序盤〜中盤の修正の影響で、修正前に既に誤差が減っているという事でしょう。
んで、これが終盤だけ学習する原因じゃないかと考えて、対策。
やった事は単純で、パラメータ修正の直前にもう一度探索し、その評価値とPV末端局面を対象にパラメータを修正する。これだけです。
一応ちゃんと動いてるみたいなんで、数時間アサーション有効で走らせて、問題が無さそうなら学習用マシンに投入します。