三目並べ・リバーシでの実験結果
学習条件は下記の通り。
- 方策勾配法+ソフトマックス方策
- 初期温度0.02
- 温度可変、目標探査率0.05
- 学習しない側のプレイヤーは、合法手リストの最初の手を指す
先手のみ学習 | 後手のみ学習 | 両方学習 | |
---|---|---|---|
三目並べ | ○(50局ほどでちゃんと収束) | ○(50局ほどでちゃんと収束) | ○(400局ほどでちゃんと収束) |
リバーシ(テーブル形式評価関数) | ×(+10に収束) | 未実験 | ○(2000局ほどでちゃんと収束) |
リバーシ(線形評価関数) | ×(+8に収束) | ×(-9に収束) | ○(180万局ほどでちゃんと収束) |
線形評価関数を使ったリバーシは評価関数の能力不足でちゃんと学習出来てない可能性があるとして、謎なのはテーブル形式を使ったリバーシ。両方学習は上手く行くくせに、片方のみだとNGって…
ログを見てると平均石差とグリーディー方策に従った場合の石差の関係でちょっとおかしな事があるんで、その辺を調べてみます。
// 21:13追記
図書館行ってる間にリバーシ・線形評価関数の両方学習を走らせたら、180万局前後で収束してました。
うーん、となると、単に収束が遅いだけって可能性もある? 他の設定も、もう一度試してみます。