相変わらず発散しまくり
ちょっと思い付いて、π(s,a;θ)が小さい(選択確率が低い)手は学習対象外としたり、シグモイド関数のゲインgをいじってみたりしたんですが、相変わらず将棋だと評価値が発散します。
これって、どっか勘違いしてるか間違ってるか、そういうのが原因か?
ちょっと思い付いて、π(s,a;θ)が小さい(選択確率が低い)手は学習対象外としたり、シグモイド関数のゲインgをいじってみたりしたんですが、相変わらず将棋だと評価値が発散します。
これって、どっか勘違いしてるか間違ってるか、そういうのが原因か?