GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2020-02-01から1ヶ月間の記事一覧

ちょっとだけ進展有った

学習方策と挙動方策を分けて学習するのは失敗しましたが、REINFORCEベースのPGLeafにエントロピー正則化をかけると割と良い感じでした。 んで、単一エージェントだと一旦大きなマイナスが付いちゃったパラメータは、その後挽回する機会がなかなか無く、ズル…

う~ん、困った

基本に戻って三目並べモードで色々実験中。 んで、分かった事。 PGQとNoisyNet*1風のノイズ加算は何か不安定になる。むしろ、ベースはREINFORCEのままで、これにNoisyNet風の処理を付け加えた方が良いらしい。 後、エントロピー正則化は結構効果があるけど、…