ちょっと横道それて、ソフトマックス方策の温度設定を自動化

　と言ってもメタ強化学習とかそんな複雑なものではなくて、単純なルールベースのルーチンですが。

　まず、方策内部で探査率（探索して得た最善手以外を指した割合）を対局中に計測します。

　で、1局通しての探査率が目標値より低ければ少し温度アップ（探査しやすくなる）、目標値より高ければ少し温度ダウン（探査しにくくなる）って処理です。

　今までは何千局も千日手が続いて、その間の探査率は低いままって状況だったので、それを改善出来ればと思ってます。

　とりあえず一晩開発用マシンで走らせて、それで問題がなければ学習用マシンに投入します。

GA将？開発日記～王理のその先へ～