ソフトマックス方策の改良論文
"ソフトマックス行動選択のパラメータ調整の手間を省くための新たな関数の導入"*1の論文を極秘ルート(嘘)で入手。読んでみました。
結論「そのままでは将棋に使えない」。
いやほら、状態数が少ない環境を前提にしてるらしくて、将棋だとメモリ容量も処理能力も足りなくて無理ポ。
まぁ、序盤だけでも使えるかもしれないんで、一度試してはみますが。
それから、論文中で温度を徐々に下げていく*2やり方がのっていたので、それを使って4x4のリバーシでテスト中。
パラメータが2つあるんですが、ベストの値の範囲は結構狭いみたいなんで、何通りかテストして調整してみます。
…まぁ、リバーシでベストな値が分かったからって、将棋でも使える訳じゃないんですがね。
*1:http://ci.nii.ac.jp/naid/110008004285
*2:学習初期はほぼランダム指しにして、だんだん最善手を指す確率を上げていく