GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2010-09-30から1日間の記事一覧

相変わらず発散しまくり

ちょっと思い付いて、π(s,a;θ)が小さい(選択確率が低い)手は学習対象外としたり、シグモイド関数のゲインgをいじってみたりしたんですが、相変わらず将棋だと評価値が発散します。 これって、どっか勘違いしてるか間違ってるか、そういうのが原因か?

将棋だと評価値が発散する問題

三目並べがちゃんと収束したのは、どうも発散前に引き分けに収束したのが理由っぽいです。 んで、将棋だとなかなか収束しないので、収束前に評価値が発散しちゃう、と。 んー、どうすっかなぁ。

失敗orz

評価値が発散しててダメでした。大抵の局面で評価値が1か-1になるんで、マトモに指し手選択が出来ない状況です。 学習率下げても発散を先送りする程度の効果しか無いし、さて、どうしたもんか。