2010-09-30から1日間の記事一覧
ちょっと思い付いて、π(s,a;θ)が小さい(選択確率が低い)手は学習対象外としたり、シグモイド関数のゲインgをいじってみたりしたんですが、相変わらず将棋だと評価値が発散します。 これって、どっか勘違いしてるか間違ってるか、そういうのが原因か?
三目並べがちゃんと収束したのは、どうも発散前に引き分けに収束したのが理由っぽいです。 んで、将棋だとなかなか収束しないので、収束前に評価値が発散しちゃう、と。 んー、どうすっかなぁ。
評価値が発散しててダメでした。大抵の局面で評価値が1か-1になるんで、マトモに指し手選択が出来ない状況です。 学習率下げても発散を先送りする程度の効果しか無いし、さて、どうしたもんか。