「History Heuristicのパラメータをプラスにするだけの簡単なお仕事」が出来ない
現在、Softmax実現確率探索を実装中です。
これがどういう物かと言うと、方策勾配法で局面遷移確率計算用関数のパラメータを学習するアルゴリズムです。探索自体は、激指の実現確率探索とほぼ同等。
んで、遷移確率計算には着手の表面的な性質(移動前後のマス・駒種や交換値等)と過去の着手の履歴(一手前との距離・二手前との距離)、探索中の情報(History Heuristicの値や、Killer Moveかどうか、ハッシュの手かどうか)を特徴量として使用します。
さて、そこでまずは特徴をHistory Heuristicのみにして学習させています。
通常、Historyのテーブルには良い手ならプラス、悪い手ならマイナスの値が登録される様にしてありますので、Historyのパラメータがプラスになれば学習成功です。
…が、学習初期はパラメータが0付近をウロウロして、数千〜1万局ほど経過してからやっとプラスで安定します。
……バグですね、どう考えても。