棋譜からの学習を試行中
プランニングを導入するにあたり、既存の棋譜からの学習(OR floodgate等の棋譜からの学習)と自己対戦での学習のハイブリッド構成が必要になる関係で、まずは棋譜からの学習単独でのテスト。
旧バージョンにも棋譜を使って学習するルーチンはあったんですが、どうも挙動がおかしい*1ので、さくっと新規に書いてみました。
やる事は単純で、棋譜の手を指す前後に探索した評価値のTD誤差を元に学習するっていう、ただそれだけです。一応、TDLeaf(λ)っぽく、PV末端局面を使って学習しています。
使用する棋譜は、この日の為に用意していたBonanza同士の自己対戦の棋譜約2000局分があるので、それを使ってテスト。
あんまり時間が無いので、学習用マシンではアサーション無効バージョン、開発用マシンではアサーション有効バージョンを並行して走らせます。
明日には一応の結果がでるはずなので、そしたら軽くテストしてみます。
*1:終局時の評価値が1.0近くになって欲しいのに、0.2位までしか上がらない