2016-11-12 PGQ: COMBINING POLICY GRADIENT AND Q-LEARNING 後で読む https://arxiv.org/pdf/1611.01626.pdf Deepmindの中の人の論文。方策勾配法とQ学習の組み合わせらしい。