う~ん、困った
基本に戻って三目並べモードで色々実験中。
んで、分かった事。
PGQとNoisyNet*1風のノイズ加算は何か不安定になる。むしろ、ベースはREINFORCEのままで、これにNoisyNet風の処理を付け加えた方が良いらしい。
後、エントロピー正則化は結構効果があるけど、学習方策*2に正則化をかけるのが良いかは要検証。
ツー事で、学習方策と挙動方策を分けて、学習方策はREINFORCEベースでNoisyNetもエントロピー正則化も無し。この2つは挙動方策のみに適用する、って線が有望そうな気がする。
ただ、挙動方策を使うには重点サンプリングで補正してやらないといけないので、そこは実装が必要、と。
さて、それではいっちょ実装しますか。
*1:https://arxiv.org/abs/1706.10295
*2:≒実戦用パラメータ