GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

学習ルーチンをちょっと修正

 まず、学習前後の評価値と誤差の変化を見てみました。

 すると、序盤は誤差の減少が少なく、終盤に近付くにつれて学習率以上に大きくなっていました。

 これは、序盤から順にパラメータを修正していくので、終盤の修正の頃には序盤〜中盤の修正の影響で、修正前に既に誤差が減っているという事でしょう。

 んで、これが終盤だけ学習する原因じゃないかと考えて、対策。

 やった事は単純で、パラメータ修正の直前にもう一度探索し、その評価値とPV末端局面を対象にパラメータを修正する。これだけです。

 一応ちゃんと動いてるみたいなんで、数時間アサーション有効で走らせて、問題が無さそうなら学習用マシンに投入します。