GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

実験結果&考察

温度固定でのソフトマックス手法は、温度次第では成功でした。

気になる点は二つほど。

  1. 温度を徐々に下げるよりも温度固定の方が収束が速い(単にパラメータ設定が良かっただけ?)
  2. 温度が0.01では成功し、温度0.02ではランダム指しと変わらない結果になる(温度固定の場合)

εグリーディーと温度固定のソフトマックスとの比較だと、ソフトマックス手法のが明らかに良い結果でした(これ以外の条件は全て同じ)。

εグリーディーでは最前手以外の手を指すタイミングは乱数次第ですが、ソフトマックス手法だと最前手に評価値の近い手が存在すれば、最善手以外の手を指す確率が高くなるのが良かったのでしょう。

という訳で今回の反省項目。

  1. 方策*1は重要。実装が楽だからといってεグリーディー決め打ちだとNG。
  2. ゲームの性質にあった評価関数が必要。先後非対称のゲームなら評価関数も先後非対称にすべき。

*1:将棋の場合だと、手を選択する方法