ソフトマックス方策の改良論文 - GA将？開発日記～王理のその先へ～

　"ソフトマックス行動選択のパラメータ調整の手間を省くための新たな関数の導入"*1の論文を極秘ルート（嘘）で入手。読んでみました。

　結論「そのままでは将棋に使えない」。

　いやほら、状態数が少ない環境を前提にしてるらしくて、将棋だとメモリ容量も処理能力も足りなくて無理ポ。

　まぁ、序盤だけでも使えるかもしれないんで、一度試してはみますが。

　それから、論文中で温度を徐々に下げていく*2やり方がのっていたので、それを使って4ｘ4のリバーシでテスト中。

　パラメータが2つあるんですが、ベストの値の範囲は結構狭いみたいなんで、何通りかテストして調整してみます。

　…まぁ、リバーシでベストな値が分かったからって、将棋でも使える訳じゃないんですがね。

*2:学習初期はほぼランダム指しにして、だんだん最善手を指す確率を上げていく