相変わらず発散しまくり

開発日記

ちょっと思い付いて、π(s,a;θ)が小さい（選択確率が低い）手は学習対象外としたり、シグモイド関数のゲインgをいじってみたりしたんですが、相変わらず将棋だと評価値が発散します。これって、どっか勘違いしてるか間違ってるか、そういうのが原因か？

将棋だと評価値が発散する問題

開発日記

三目並べがちゃんと収束したのは、どうも発散前に引き分けに収束したのが理由っぽいです。んで、将棋だとなかなか収束しないので、収束前に評価値が発散しちゃう、と。んー、どうすっかなぁ。

開発日記

評価値が発散しててダメでした。大抵の局面で評価値が1か-1になるんで、マトモに指し手選択が出来ない状況です。学習率下げても発散を先送りする程度の効果しか無いし、さて、どうしたもんか。