GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

相変わらず発散しまくり

 ちょっと思い付いて、π(s,a;θ)が小さい(選択確率が低い)手は学習対象外としたり、シグモイド関数のゲインgをいじってみたりしたんですが、相変わらず将棋だと評価値が発散します。

 これって、どっか勘違いしてるか間違ってるか、そういうのが原因か?