今頃になって学習ルーチンの改良開始 - GA将？開発日記～王理のその先へ～

　現在は割引率が1.0固定なんですが、これを調整してみようかと検討中。

　例えば0.99に設定すると、1手指すごとに報酬が1％減少するんで「勝つ時は短手数で勝つのが良い」「負ける時は粘って手数を伸ばすのが良い」と学習してくれるはずです。

　floodgateの対局を見ているとのんびりした手が目立つので、その辺を少しでも改善出来れば、と。

　んで、そうすると報酬の計算方法に手を入れるだけではなく、SR-PGLeafの予測報酬計算ルーチンも修正する必要があるので、中規模改修になりますね。

　選手権に間に合うかは微妙ですが、とりあえずやってみます。