Averaged Perceptronを使って色々やってます。TDLeaf(λ)とか方策勾配法でやったり、学習用の自己対戦時に平均化されたパラメータを使ったり。 んで、Averagedでやってみた感じですが、通常より学習率高めにしても平均化されるおかげでパラメータの変化が安定…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。