GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

パラメータへのノイズ付加による探査促進

  • 一局終了ごとに、評価関数の全パラメータにそれぞれ独立した小さなノイズを加える
  • ノイズはどんどん累積させていく
  • ノイズには平均0分散0.000001位の正規乱数を用いる

 要するに、小さなステップ幅でパラメータをランダムウォークさせようって事です。

 こうすると何が嬉しいかと言うと、探査にある程度の方向性を持たせれること。この一点につきます。

 例えば、ノイズが累積して8七の王将の価値が高くなると、対局中に王将がその位置に居続けようとします。で、結果的に勝てたら8七王のパラメータがさらにプラスになり、負けたらマイナス方向に修正される(ノイズが消える方向の修正)。

 ε-greedyやソフトマックスでの探査はこうは行かなくて、一旦8七に王将が移動しても、次の手で元の位置に戻ったりする現象があります(一時的に探査をしても、次の手でその探査をキャンセルしようとしてしまう)。

 実装的には簡単ですし、調整すべきパラメータは分散一個だけなので、サクッと実装してサクっとテストしてみます。