実験結果メモ
昨日実装した評価関数の小細工は効果があった様で、4パターン共ちゃんと学習していました。
まず、例によって強化学習バージョンの平均二乗誤差。
全局面の平均二乗誤差
- | 着手数あり | 着手数なし |
---|---|---|
開放度あり | 5.29 | 5.29 |
開放度なし | 5.14 | 5.42 |
対局中に表れた局面の平均二乗誤差
- | 着手数あり | 着手数なし |
---|---|---|
開放度あり | 0.001 | 0.001 |
開放度なし | 0.001 | 1.86 |
終局図は昨日の結果と同じ(全パターンが正しく学習した図になった)なので省略。
で、下の表を見る限りでは着手可能数と開放度はどちらか一方だけでも良さそうですね。
まぁ、他にも細々とした数値を出しているので、それをちゃんと見ないと分かりませんが、それは明後日までお預け。
あ、そうそう。昨日書いたど低脳なバグをつぶしたら、一晩での対局数が10倍になってました。その辺も学習結果に影響しているかもしれません。