実験結果&考察
温度固定でのソフトマックス手法は、温度次第では成功でした。
気になる点は二つほど。
- 温度を徐々に下げるよりも温度固定の方が収束が速い(単にパラメータ設定が良かっただけ?)
- 温度が0.01では成功し、温度0.02ではランダム指しと変わらない結果になる(温度固定の場合)
εグリーディーと温度固定のソフトマックスとの比較だと、ソフトマックス手法のが明らかに良い結果でした(これ以外の条件は全て同じ)。
εグリーディーでは最前手以外の手を指すタイミングは乱数次第ですが、ソフトマックス手法だと最前手に評価値の近い手が存在すれば、最善手以外の手を指す確率が高くなるのが良かったのでしょう。
という訳で今回の反省項目。
- 方策*1は重要。実装が楽だからといってεグリーディー決め打ちだとNG。
- ゲームの性質にあった評価関数が必要。先後非対称のゲームなら評価関数も先後非対称にすべき。
*1:将棋の場合だと、手を選択する方法