GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

Cold-Start Reinforcement Learning with Softmax Policy Gradients

後で読む

　https://arxiv.org/pdf/1709.09346.pdf

　やってる事（Softmax方策＋方策勾配法）は基本的にPGLeafも同様なので、何かの参考になるかも。