2013-08-27 適格度トレースの実装完了 開発日記 これでTDLeaf(λ)になりました。 んで、前に方策勾配法でやったのと同じ評価項目で、TDLeaf(λ)を使って学習中。 明日朝にはある程度収束していると思うので、そしたらsspとスパーリングです。