GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

「History Heuristicのパラメータをプラスにするだけの簡単なお仕事」が出来ない

 現在、Softmax実現確率探索を実装中です。

 これがどういう物かと言うと、方策勾配法で局面遷移確率計算用関数のパラメータを学習するアルゴリズムです。探索自体は、激指の実現確率探索とほぼ同等。

 んで、遷移確率計算には着手の表面的な性質(移動前後のマス・駒種や交換値等)と過去の着手の履歴(一手前との距離・二手前との距離)、探索中の情報(History Heuristicの値や、Killer Moveかどうか、ハッシュの手かどうか)を特徴量として使用します。

 さて、そこでまずは特徴をHistory Heuristicのみにして学習させています。

 通常、Historyのテーブルには良い手ならプラス、悪い手ならマイナスの値が登録される様にしてありますので、Historyのパラメータがプラスになれば学習成功です。

 …が、学習初期はパラメータが0付近をウロウロして、数千〜1万局ほど経過してからやっとプラスで安定します。

 ……バグですね、どう考えても。