GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2017-10-03から1日間の記事一覧

Cold-Start Reinforcement Learning with Softmax Policy Gradients

https://arxiv.org/pdf/1709.09346.pdf やってる事(Softmax方策+方策勾配法)は基本的にPGLeafも同様なので、何かの参考になるかも。