GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

2020-02-01から1ヶ月間の記事一覧

ちょっとだけ進展有った

学習方策と挙動方策を分けて学習するのは失敗しましたが、REINFORCEベースのPGLeafにエントロピー正則化をかけると割と良い感じでした。んで、単一エージェントだと一旦大きなマイナスが付いちゃったパラメータは、その後挽回する機会がなかなか無く、ズル…

う～ん、困った

開発日記

基本に戻って三目並べモードで色々実験中。んで、分かった事。 PGQとNoisyNet*1風のノイズ加算は何か不安定になる。むしろ、ベースはREINFORCEのままで、これにNoisyNet風の処理を付け加えた方が良いらしい。後、エントロピー正則化は結構効果があるけど、…