現在は学習アルゴリズムにTDLeaf(λ)を全幅2手+静止探索のルーチンと組み合わせて使っていますが、これだとPVが長くなるのでパラメータ修正前後でちゃんと誤差が減っているか不安です*1。
という訳で、実際にパラメータ修正の直前直後の誤差*2を比較してみましたが、概ね減る方向に変化していました。時々誤差が増えたりしますが、探索している以上どうしてもこういう事は起こりえるでしょうし、そういうものだと思っておきます。
誤差がちゃんと減ってるとなると、今度は学習の進み具合が遅いのが気になりますが、探索が複雑になった分時間がかかってるんだと判断しておきます。