学習率を少し修正
まず学習率0.01での結果ですが、パラメータの上下が激しくて一局の結果の影響が大きすぎる感じでした。
んで、パラメータを見てみた感じですが、使用頻度の低いパラメータ*1はもっと修正の幅を大きくし、逆に使用頻度の高いパラメータは修正の幅を小さくするといいんじゃないかという感じです。
というわけで今日の修正内容。
UCB1で求めたボーナス*2をパラメータごとの学習率として使用する様にしました。ただし、パラメータごとの学習率は1.0を上回らず、評価関数全体の学習率*3を下回らない様にします。
これでパラメータの使用頻度に応じて適当に学習率を決めれるはずです。
ちなみにボーナスを学習率として使うのは、単に思い付きでやっただけで理論的な裏付けはありません。いずれ計算方法を修正するかも。