パラメータへのノイズ付加による探査促進 - GA将？開発日記～王理のその先へ～

　要するに、小さなステップ幅でパラメータをランダムウォークさせようって事です。

　こうすると何が嬉しいかと言うと、探査にある程度の方向性を持たせれること。この一点につきます。

　例えば、ノイズが累積して８七の王将の価値が高くなると、対局中に王将がその位置に居続けようとします。で、結果的に勝てたら８七王のパラメータがさらにプラスになり、負けたらマイナス方向に修正される（ノイズが消える方向の修正）。

　ε-greedyやソフトマックスでの探査はこうは行かなくて、一旦８七に王将が移動しても、次の手で元の位置に戻ったりする現象があります（一時的に探査をしても、次の手でその探査をキャンセルしようとしてしまう）。

　実装的には簡単ですし、調整すべきパラメータは分散一個だけなので、サクッと実装してサクっとテストしてみます。