GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2020-02-07から1日間の記事一覧

ちょっとだけ進展有った

学習方策と挙動方策を分けて学習するのは失敗しましたが、REINFORCEベースのPGLeafにエントロピー正則化をかけると割と良い感じでした。 んで、単一エージェントだと一旦大きなマイナスが付いちゃったパラメータは、その後挽回する機会がなかなか無く、ズル…