TreeStrap(αβ)をしつこく修正中 - GA将？開発日記～王理のその先へ～

　今度は内部ノードの評価値が決まった時点で評価関数のパラメータを修正する様に変更。論文のアルゴリズムとは違いますが、これで上手く行けばラッキー位に考えて試してみます。

　それから、一つ考えていたのは、内部ノードでSEEを使って目標値の補正を出来ないかな、と。

　まず第一に、内部ノードの評価値を目標値に近付けるのではなく、内部ノードから静止探索を呼んで、そのPV末端局面の評価値を目標値に近付けた方が精度が上がると思います。

　ですが、このプランだと静止探索のコストが大きすぎます。

　なので、「内部ノードの評価値＋SEE値≒内部ノードでの静止探索値」になるのを期待して、内部ノードの評価値＋SEE値を目標値に近付けようかとの考えです。

　実際にはSEE値をいじるのは難しいので、内部ノードの評価値を目標値−SEE値に近付ける、という処理にしようかと考え中。

　これだと、駒の取り合いの途中とかの局面でも、ある程度正確な値に近付くんじゃないかという事を期待しています。

　まぁ、内部ノードの評価値と静止探索値の相関だとか、評価値＋SEE値と静止探索値の相関だとか、その辺をちゃんと調べてからですが。