原点回帰して、PGLeaf(初代)の改良に取り組む事にしました
https://papers.nips.cc/paper/1713-policy-gradient-methods-for-reinforcement-learning-with-function-approximation.pdf
http://proceedings.mlr.press/v80/xu18d/xu18d.pdf
TDLeaf(λ)とかと組み合わせるのは当面見送って、PGLeaf単体でどこまで行けるかトライ。
んで、上記参考文献をベースに、PGLeafをOff-Policy化しメタ学習を取り入れるつもり。
上手く行けば今年の選手権であった諸々の問題が解決出来る…はず。