A3C+PGLeafをお試し中
http://arxiv.org/abs/1602.01783
前に実装したコードを引っ張り出して来て、少し修正して走らせてみました。
んで、ログを見ているとTDLeaf(λ)+Experience Replayの時より、CriticのTD誤差が大きくなっています。
具体的には、それぞれ0.13と0.20位です(最小値での比較)。
という訳で、どっかバグってると思われますが、今日はもう時間が無いので明日調査する事にしました。
…ただ、明日はThinkPad 13が届く予定なんですよねぇ。そっちで遊んじゃって、開発が進まなくなる予感。