モノは試しって事で、相関係数調べてみた
SEEはまだ実装してないんで、静的評価値と静止探索値の相関。
んで、相関係数0.83。意外と相関高いです。
となると、目標値の設定がマズイんじゃなくて、駒の取り合いの途中の局面の特徴を用いているのがマズイって可能性もあります。
という訳で、静止探索のPV末端局面の特徴を使う様に修正。…あれ、意外と遅くなってない。多分、探索深さが1手浅くなった程度。これなら行ける?
んじゃまぁ、学習用マシンは上で書いた方式(内部ノードでパラメータを修正する)、開発用マシンはそれ+静止探索末端を使う方式で一晩走らせてみます。