GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

学習率を少し修正

 まず学習率0.01での結果ですが、パラメータの上下が激しくて一局の結果の影響が大きすぎる感じでした。

 んで、パラメータを見てみた感じですが、使用頻度の低いパラメータ*1はもっと修正の幅を大きくし、逆に使用頻度の高いパラメータは修正の幅を小さくするといいんじゃないかという感じです。

 というわけで今日の修正内容。

 UCB1で求めたボーナス*2をパラメータごとの学習率として使用する様にしました。ただし、パラメータごとの学習率は1.0を上回らず、評価関数全体の学習率*3を下回らない様にします。

 これでパラメータの使用頻度に応じて適当に学習率を決めれるはずです。

 ちなみにボーナスを学習率として使うのは、単に思い付きでやっただけで理論的な裏付けはありません。いずれ計算方法を修正するかも。

*1:成駒は生駒より低いですし、相対位置の評価用のパラメータはもっと低いです

*2:局面評価時のボーナスと同じです

*3:アプリ起動時に指定した値。今は0.001です。