2010-10-23 VS ssp (5五将棋モード) 開発日記 学習経過 今朝からの分。 65-?-269で勝率19.5%。95%信頼区間は15.4〜24.1。 まだ収束遅いんで、TDLeaf(λ)でざくっと学習させてから、パラメータ引き継ぎで方策勾配法って流れにしてみます。