GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

ソフトマックス方策の改良論文

 "ソフトマックス行動選択のパラメータ調整の手間を省くための新たな関数の導入"*1の論文を極秘ルート(嘘)で入手。読んでみました。

 結論「そのままでは将棋に使えない」。

 いやほら、状態数が少ない環境を前提にしてるらしくて、将棋だとメモリ容量も処理能力も足りなくて無理ポ。

 まぁ、序盤だけでも使えるかもしれないんで、一度試してはみますが。

 それから、論文中で温度を徐々に下げていく*2やり方がのっていたので、それを使って4x4のリバーシでテスト中。

 パラメータが2つあるんですが、ベストの値の範囲は結構狭いみたいなんで、何通りかテストして調整してみます。

 …まぁ、リバーシでベストな値が分かったからって、将棋でも使える訳じゃないんですがね。

*1:http://ci.nii.ac.jp/naid/110008004285

*2:学習初期はほぼランダム指しにして、だんだん最善手を指す確率を上げていく