GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2018-11-24から1日間の記事一覧

エントロピー正則化の勾配計算(修正済み)

policy gradientがexploration不足のまま決定的になりすぎてしまう場合、行動分布のentropyを最大化する項を正則化として加えるという方法がありますが、試してますでしょうか?— mooopan (@mooopan) 2018年11月24日 Twitterで@mooopanさんに教わった手法で…