GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

パラメータ修正前後での誤差の変化

 現在は学習アルゴリズムにTDLeaf(λ)を全幅2手+静止探索のルーチンと組み合わせて使っていますが、これだとPVが長くなるのでパラメータ修正前後でちゃんと誤差が減っているか不安です*1

 という訳で、実際にパラメータ修正の直前直後の誤差*2を比較してみましたが、概ね減る方向に変化していました。時々誤差が増えたりしますが、探索している以上どうしてもこういう事は起こりえるでしょうし、そういうものだと思っておきます。

 誤差がちゃんと減ってるとなると、今度は学習の進み具合が遅いのが気になりますが、探索が複雑になった分時間がかかってるんだと判断しておきます。

*1:修正前後でPVが変化すると、誤差が減る方向にパラメータを修正したはずが、かえって誤差が増える可能性があるので。

*2:修正前後に実際に探索して得た評価値を元に計算した誤差