学習率を少し修正 - GA将？開発日記～王理のその先へ～

　まず学習率0.01での結果ですが、パラメータの上下が激しくて一局の結果の影響が大きすぎる感じでした。

　んで、パラメータを見てみた感じですが、使用頻度の低いパラメータ*1はもっと修正の幅を大きくし、逆に使用頻度の高いパラメータは修正の幅を小さくするといいんじゃないかという感じです。

　というわけで今日の修正内容。

　UCB1で求めたボーナス*2をパラメータごとの学習率として使用する様にしました。ただし、パラメータごとの学習率は1.0を上回らず、評価関数全体の学習率*3を下回らない様にします。

　これでパラメータの使用頻度に応じて適当に学習率を決めれるはずです。

　ちなみにボーナスを学習率として使うのは、単に思い付きでやっただけで理論的な裏付けはありません。いずれ計算方法を修正するかも。

*1:成駒は生駒より低いですし、相対位置の評価用のパラメータはもっと低いです

*2:局面評価時のボーナスと同じです

*3:アプリ起動時に指定した値。今は0.001です。