パラメータ自動調整の雛形完成
雛祭りの日に雛形。だから何だって話ですけどね。
一昨日書いた、単独の駒の絶対テーブルによる評価と持ち駒の評価。それから、評価値が目標とする値に近くなる様に修正するルーチン。
とりあえず初期局面の評価値が0になる様に学習させたら、ちゃんと動きました。
で、目標とする値をどう求めるかですが、TD学習っぽくしようと考えています。
具体的には、一手先で投了した場合は1(先手の勝ちの場合)または-1(後手の勝ちの場合)を目標とし、投了しなかった場合は一手先の評価値を目標に現在の評価値を修正します。
つまり、はじめのうちはでたらめな値だけど、終盤→中盤→序盤という流れで評価値が真の値に近づいていきます。
で、後は棋譜を読み込んで学習を何回も回してやればOKのはず。その後、二駒の位置関係とかを追加していきます。