2011-10-01から1日間の記事一覧
23:09:38 @ core::rl::PolicyGradientAgent::playGame() > 終局図 23:09:38 @ core::rl::PolicyGradientAgent::playGame() > +---+---+---+---+---+---+---+---+---+ 23:09:38 @ core::rl::PolicyGradientAgent::playGame() > |^杏| |v銀|^飛| |^龍|v銀| | |…
どうも再現出来たっぽいです。 という訳で、今度は終盤まで学習して囲わない現象の原因究明が当面の目標になりました。 さーて、どっから手を付けたもんかなぁ…
バグじゃなかった様です。 どうも、テスト用コードに問題があったらしく、テスト用コードを書き換えるとちゃんと棋譜の手の選択確率が1.0に収束しました。 …このバグ潰せば一気に上手く行くかと思ってましたが、どうもそう甘い状況でもないらしいです。
これの件ですが、当初は進行度絡みのバグ(棋譜以外の手が進行度上がる手なので、棋譜の手のパラメータ修正が棋譜以外の手により大きく影響している)かと思ってたんですが、どうも違う様です。進行度を0.5固定にしても再現しましたので。 まぁ、進行度絡み…