絶対値の大きなパラメータの0クリア機能を追加
森北出版の「強化学習」に「Samuelのチェッカープレイヤーでは、絶対値の大きなパラメータを0クリアすると局所解から抜けれたらしい(要約)」と書いてあったのを思い出したので、その機能を実装してみました。
単純に「絶対値の大きいものN個」とすると面倒なので、パラメータの平均と標準偏差を計算して、平均から3σ以上離れているパラメータを20万局毎に0クリアする様にしてみました。(テキトーテキトー)
ただ、駒割に関しては確実に0クリアの対象になっちゃって困るでしょうから、それ以外(KKP/KPP/PPと王将の移動可能範囲)のパラメータのみを対象としました。
後、20万局の根拠ですが、以前の実装では30万局前後からレベルの伸びが鈍化する傾向がありました。なので、この辺で局所解にハマっている可能性大かと考えて、やや少なめの20万局としました。
多分、収束するまで最低2日かかるので、結果が出るのは早くても今週末ですね。ジックリ待つ事にします。