どうも非線形にすると収束が遅くなるみたいなので、その辺の調整。例によって王手将棋でテストしてます。
んで、最短手数での勝ちを見つける為に、割引率(γ)を0.9に設定していたのですが、これを0.75に変えてテスト中。
ひょっとしたら、評価値が1.0に近付くと勾配が小さくなって学習が遅くなるのかと思い、それなら評価値をもうちょっと0に近い値にしてやろう、という考えです。微妙に収束が速くなった様なそうでない様な。
まぁ、評価関数が線形・非線形のそれぞれの場合で比較しないと無意味なので、明日は線形に戻してテストします。