割引率γと勝率の関係
方策勾配法で約27万局自己対戦し学習したパラメータを、1手1秒でsspと対局させてみました。
勝率と95%信頼区間の下限・上限、それから勝ち星は下記の通り。
割引率 | 対ssp勝率 | 下限 | 上限 | 勝ち星 |
---|---|---|---|---|
1 | 26.1 | 20.6 | 32.1 | 62-0-176 |
0.999 | 31.5 | 27.8 | 35.4 | 187-0-406 |
0.99 | 30.8 | 23.9 | 38.3 | 52-0-117 |
0.9 | 21.8 | 14.2 | 31.1 | 22-0-79 |
0.85 | 19.0 | 14.9 | 23.6 | 63-0-269 |
0.7 | 20.8 | 16.2 | 25.9 | 60-0-229 |
今までは割引率1と同様の学習だったのでそれを基準に考えると、割引率0.9以下は弱くなってるので論外。0.99〜0.999で勝率+5%なので、今後はこの辺の値を採用する事にします。
あと、割引率0.8と0.5も学習させてたんですが、0.85や0.7の結果を見る限りだと望み薄なんで、連続対戦で検証はやめときます。