今頃になって学習ルーチンの改良開始
現在は割引率が1.0固定なんですが、これを調整してみようかと検討中。
例えば0.99に設定すると、1手指すごとに報酬が1%減少するんで「勝つ時は短手数で勝つのが良い」「負ける時は粘って手数を伸ばすのが良い」と学習してくれるはずです。
floodgateの対局を見ているとのんびりした手が目立つので、その辺を少しでも改善出来れば、と。
んで、そうすると報酬の計算方法に手を入れるだけではなく、SR-PGLeafの予測報酬計算ルーチンも修正する必要があるので、中規模改修になりますね。
選手権に間に合うかは微妙ですが、とりあえずやってみます。