GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

棋譜からの学習を試行中

 プランニングを導入するにあたり、既存の棋譜からの学習(OR floodgate等の棋譜からの学習)と自己対戦での学習のハイブリッド構成が必要になる関係で、まずは棋譜からの学習単独でのテスト。

 旧バージョンにも棋譜を使って学習するルーチンはあったんですが、どうも挙動がおかしい*1ので、さくっと新規に書いてみました。

 やる事は単純で、棋譜の手を指す前後に探索した評価値のTD誤差を元に学習するっていう、ただそれだけです。一応、TDLeaf(λ)っぽく、PV末端局面を使って学習しています。

 使用する棋譜は、この日の為に用意していたBonanza同士の自己対戦の棋譜約2000局分があるので、それを使ってテスト。

 あんまり時間が無いので、学習用マシンではアサーション無効バージョン、開発用マシンではアサーション有効バージョンを並行して走らせます。

 明日には一応の結果がでるはずなので、そしたら軽くテストしてみます。

*1:終局時の評価値が1.0近くになって欲しいのに、0.2位までしか上がらない