学習ルーチンをちょっと修正 - GA将？開発日記～王理のその先へ～

　まず、学習前後の評価値と誤差の変化を見てみました。

　すると、序盤は誤差の減少が少なく、終盤に近付くにつれて学習率以上に大きくなっていました。

　これは、序盤から順にパラメータを修正していくので、終盤の修正の頃には序盤〜中盤の修正の影響で、修正前に既に誤差が減っているという事でしょう。

　んで、これが終盤だけ学習する原因じゃないかと考えて、対策。

　やった事は単純で、パラメータ修正の直前にもう一度探索し、その評価値とPV末端局面を対象にパラメータを修正する。これだけです。

　一応ちゃんと動いてるみたいなんで、数時間アサーション有効で走らせて、問題が無さそうなら学習用マシンに投入します。