GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

原点回帰して、PGLeaf（初代）の改良に取り組む事にしました

開発日記

　https://papers.nips.cc/paper/1713-policy-gradient-methods-for-reinforcement-learning-with-function-approximation.pdf
　http://proceedings.mlr.press/v80/xu18d/xu18d.pdf

　TDLeaf(λ)とかと組み合わせるのは当面見送って、PGLeaf単体でどこまで行けるかトライ。

　んで、上記参考文献をベースに、PGLeafをOff-Policy化しメタ学習を取り入れるつもり。

　上手く行けば今年の選手権であった諸々の問題が解決出来る…はず。