2017-05-02 COMBINING POLICY GRADIENT AND Q-LEARNING 後で読む https://pdfs.semanticscholar.org/c59d/19162ca24f412e4bbb10095c942c71815a57.pdf Abstract読んだ限りでは、表題そのまんまな内容らしい。