びみょー
良くなってる部分と悪くなってる部分があって、どっちも予想通りの挙動です。
んで、やっぱり最初数局の学習で駒の価値がマイナス方向に修正されると、そのあとの学習があまり進まない感じ。
という訳で、とりあえず機能の拡張は無しにして、昨日のコメント欄でid:higotakayuki2さんに指摘してもらった「試行回数を増やす」方向でやってみます。
といっても、いきなり探索を高速化するのは無理なので、3手全幅+静止探索4手を1手全幅+静止探索4手にして対局数を増やす方向で。
本当はボーナスの与え方でちょっと考えてた事もあるんですが、それはまだここに書けるほど練りこんでない(=まだ実装すべき段階ではない)と判断して保留に。そのうち書きます。