「History Heuristicのパラメータをプラスにするだけの簡単なお仕事」が出来ない

　現在、Softmax実現確率探索を実装中です。

　これがどういう物かと言うと、方策勾配法で局面遷移確率計算用関数のパラメータを学習するアルゴリズムです。探索自体は、激指の実現確率探索とほぼ同等。

　んで、遷移確率計算には着手の表面的な性質（移動前後のマス・駒種や交換値等）と過去の着手の履歴（一手前との距離・二手前との距離）、探索中の情報（History Heuristicの値や、Killer Moveかどうか、ハッシュの手かどうか）を特徴量として使用します。

　さて、そこでまずは特徴をHistory Heuristicのみにして学習させています。

　通常、Historyのテーブルには良い手ならプラス、悪い手ならマイナスの値が登録される様にしてありますので、Historyのパラメータがプラスになれば学習成功です。

　…が、学習初期はパラメータが0付近をウロウロして、数千〜1万局ほど経過してからやっとプラスで安定します。

　……バグですね、どう考えても。

GA将？開発日記～王理のその先へ～