2017-10-03 Cold-Start Reinforcement Learning with Softmax Policy Gradients 後で読む https://arxiv.org/pdf/1709.09346.pdf やってる事(Softmax方策+方策勾配法)は基本的にPGLeafも同様なので、何かの参考になるかも。