ちょっと気になって、対局開始からの手数と探査率*1の関係を調べてみました。
んで、10〜19手目の範囲が探査率一番高くて、その後徐々に下がっていく傾向です。
ひょっとしたらこれが学習の上手く行かない原因かもしれないので、対策してみようと考えてます。
具体的には、対局開始からの手数によって温度*2を変更し、序盤は温度低め、中盤〜終盤は徐々に高くする、という感じでどうかなと検討中。
一応大雑把な構成は考えてあるんで、実装自体はすぐにでも出来そうです。が、他事でちょっと忙しいんで、そっちが一段落してからですね、実装は。