パラメータ修正前後での誤差の変化 - GA将？開発日記～王理のその先へ～

　現在は学習アルゴリズムにTDLeaf(λ)を全幅2手＋静止探索のルーチンと組み合わせて使っていますが、これだとPVが長くなるのでパラメータ修正前後でちゃんと誤差が減っているか不安です*1。

　という訳で、実際にパラメータ修正の直前直後の誤差*2を比較してみましたが、概ね減る方向に変化していました。時々誤差が増えたりしますが、探索している以上どうしてもこういう事は起こりえるでしょうし、そういうものだと思っておきます。

　誤差がちゃんと減ってるとなると、今度は学習の進み具合が遅いのが気になりますが、探索が複雑になった分時間がかかってるんだと判断しておきます。

*1:修正前後でPVが変化すると、誤差が減る方向にパラメータを修正したはずが、かえって誤差が増える可能性があるので。

*2:修正前後に実際に探索して得た評価値を元に計算した誤差