棋譜からの学習を試行中 - GA将？開発日記～王理のその先へ～

　プランニングを導入するにあたり、既存の棋譜からの学習（OR floodgate等の棋譜からの学習）と自己対戦での学習のハイブリッド構成が必要になる関係で、まずは棋譜からの学習単独でのテスト。

　旧バージョンにも棋譜を使って学習するルーチンはあったんですが、どうも挙動がおかしい*1ので、さくっと新規に書いてみました。

　やる事は単純で、棋譜の手を指す前後に探索した評価値のTD誤差を元に学習するっていう、ただそれだけです。一応、TDLeaf(λ)っぽく、PV末端局面を使って学習しています。

　使用する棋譜は、この日の為に用意していたBonanza同士の自己対戦の棋譜約2000局分があるので、それを使ってテスト。

　あんまり時間が無いので、学習用マシンではアサーション無効バージョン、開発用マシンではアサーション有効バージョンを並行して走らせます。

　明日には一応の結果がでるはずなので、そしたら軽くテストしてみます。

*1:終局時の評価値が1.0近くになって欲しいのに、0.2位までしか上がらない