駒の絶対位置評価で、パラメータの使用回数を数えてみた
上が10局終了後の使用回数、下が1000局終了後。左は使用回数(対局時のPV末端で出現した回数)で、右は使用回数が最大の位置の回数との比率。
ざっと見てみると、初期位置の使用回数が多いのは当然ですが、対局数が増えると初期位置に居座る割合が高くなっています。これは、金でもほぼ同じ様な感じでした。
つまり、学習の極初期に「下手に銀を動かさない方が勝ちやすい」と誤解してしまって、そのせいで銀が動かなくなり、さらに誤解が広まっていくって感じになってるんじゃないかと思います。
じゃぁ対策は…って言うと、さっぱり思い付きません。
目標探索率を上げてみれば多少はマシかもしれませんが、根本的な解決にはならないでしょうし… うーん…