パラメータへのノイズ付加による探査促進
- 一局終了ごとに、評価関数の全パラメータにそれぞれ独立した小さなノイズを加える
- ノイズはどんどん累積させていく
- ノイズには平均0分散0.000001位の正規乱数を用いる
要するに、小さなステップ幅でパラメータをランダムウォークさせようって事です。
こうすると何が嬉しいかと言うと、探査にある程度の方向性を持たせれること。この一点につきます。
例えば、ノイズが累積して8七の王将の価値が高くなると、対局中に王将がその位置に居続けようとします。で、結果的に勝てたら8七王のパラメータがさらにプラスになり、負けたらマイナス方向に修正される(ノイズが消える方向の修正)。
ε-greedyやソフトマックスでの探査はこうは行かなくて、一旦8七に王将が移動しても、次の手で元の位置に戻ったりする現象があります(一時的に探査をしても、次の手でその探査をキャンセルしようとしてしまう)。
実装的には簡単ですし、調整すべきパラメータは分散一個だけなので、サクッと実装してサクっとテストしてみます。