GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

ちょっと横道それて、ソフトマックス方策の温度設定を自動化

 と言ってもメタ強化学習とかそんな複雑なものではなくて、単純なルールベースのルーチンですが。

 まず、方策内部で探査率(探索して得た最善手以外を指した割合)を対局中に計測します。

 で、1局通しての探査率が目標値より低ければ少し温度アップ(探査しやすくなる)、目標値より高ければ少し温度ダウン(探査しにくくなる)って処理です。

 今までは何千局も千日手が続いて、その間の探査率は低いままって状況だったので、それを改善出来ればと思ってます。

 とりあえず一晩開発用マシンで走らせて、それで問題がなければ学習用マシンに投入します。