GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

開発日記

　ちょっと思い付いて、π(s,a;θ)が小さい（選択確率が低い）手は学習対象外としたり、シグモイド関数のゲインgをいじってみたりしたんですが、相変わらず将棋だと評価値が発散します。

　これって、どっか勘違いしてるか間違ってるか、そういうのが原因か？