GA将?開発日記~原点回帰~

ネタ勢最強を目指して絶賛開発中。

原点回帰して、PGLeaf(初代)の改良に取り組む事にしました

 https://papers.nips.cc/paper/1713-policy-gradient-methods-for-reinforcement-learning-with-function-approximation.pdf
 http://proceedings.mlr.press/v80/xu18d/xu18d.pdf

 TDLeaf(λ)とかと組み合わせるのは当面見送って、PGLeaf単体でどこまで行けるかトライ。

 んで、上記参考文献をベースに、PGLeafをOff-Policy化しメタ学習を取り入れるつもり。

 上手く行けば今年の選手権であった諸々の問題が解決出来る…はず。