カーネル法評価関数、どっかおかしい
評価関数だけのテストを以下の手順でやってみました。
- 適当な棋譜一局分に従って、初手から終局までの局面を作る。
- 以下を繰り返す。
- 終局図で先手勝ちなら+1、後手勝ちなら-1を目標として、終局一手前の局面のパラメータを調整する。
- それ以外の局面は、その一手後の局面の評価値を目標としてパラメータ調整する。
大雑把に言うと、TD(0)みたいなパラメータ調整を一局の棋譜に対して繰り返す方法です。
で、以前の線形評価関数では終盤の局面から順に評価値が1(または-1)に近付いて行き、それにつられて中盤〜序盤も徐々に変化していく感じでした。
ですが、カーネル法評価関数ではそうならず、どうも期待していた動作にはなっていない様です。
という訳で、バグの線が濃厚なので今からチェックしてみます。