GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

PGQ: COMBINING POLICY GRADIENT AND Q-LEARNING

後で読む

　https://arxiv.org/pdf/1611.01626.pdf

　Deepmindの中の人の論文。方策勾配法とQ学習の組み合わせらしい。