パラメータ更新ルーチンを修正
今までは棋譜の手を一手読み込むごとに更新していたのですが、全学習棋譜の手を読み込んだ後にまとめて更新する様にしてみました。
たしかオンラインからバッチに修正したとかそんな風に表現する、はず。
で、ついでにバッチ更新モードでは学習棋譜での出現頻度が高いほど更新する幅を狭くしてみました。ざくっと言うと、局面に現れれるたびに更新する量を計算していき、その量の平均だけ更新するって実装*1。
それから、どうも学習率を下げるペースが速すぎる様なので、とりあえず学習率一定に。
んで、例によって修正前後のオンライン更新モードとバッチ更新モードを各2プロセス走らせておきました。明日夜にはある程度の結果が出てるでしょう。
これだけ修正すればどれかが原因で上手く行って欲しいです。もう時間が無いので、細かい検証は後回しにしてとりあえず学習を成功させたいんで。
*1:ふと思いましたが、そうするのが普通なのかも。