と、いう訳で
新アルゴリズム*1のノイズ付加探査を実装&軽く動作確認も兼ねてテスト。
4x4リバーシで、探索深さ3手で学習した評価関数と、完全読みプレイヤーを対局させた結果です。
- 学習は各設定(分散系数)で乱数のシードを変えつつ10回行い、その平均値をグラフにしました。
- 各グラフの横軸はステップ数(100局で1ステップ)、縦軸は完全読みプレイヤー相手の対局結果(平均石差)。
- 青い線が先手=学習結果の評価関数、後手=完全読みプレイヤー。赤い線は先後逆。
- 実験は、ノイズ(正規乱数)の分散を色々変えて9通り行いました。グラフの右にある「先手 xxxx」のxxxxの部分が分散の係数。
収束速度と収束後の挙動を見ると、分散系数0.003か0.001が良さげですね。収束速度・収束後の挙動共に優秀です。
さて、それでは大体この辺りって範囲は絞り込めたので、一晩かけてもうちょっと細かい結果を出してみますか。
*1:と言っても、過去2回ほど失敗していますが…