2018-11-24から1日間の記事一覧

2018-11-24

エントロピー正則化の勾配計算（修正済み）

開発日記メモ

policy gradientがexploration不足のまま決定的になりすぎてしまう場合、行動分布のentropyを最大化する項を正則化として加えるという方法がありますが、試してますでしょうか？— mooopan (@mooopan) 2018年11月24日 Twitterで@mooopanさんに教わった手法で…

GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

2018-11-24から1日間の記事一覧

エントロピー正則化の勾配計算（修正済み）