と言ってもメタ強化学習とかそんな複雑なものではなくて、単純なルールベースのルーチンですが。
まず、方策内部で探査率(探索して得た最善手以外を指した割合)を対局中に計測します。
で、1局通しての探査率が目標値より低ければ少し温度アップ(探査しやすくなる)、目標値より高ければ少し温度ダウン(探査しにくくなる)って処理です。
今までは何千局も千日手が続いて、その間の探査率は低いままって状況だったので、それを改善出来ればと思ってます。
とりあえず一晩開発用マシンで走らせて、それで問題がなければ学習用マシンに投入します。