2012-08-14 VS ssp(5五将棋モード) 開発日記 学習経過 方策勾配法・全幅深さ0で65万局程学習させたバージョン。 283-?-280で勝率50.3%、95%信頼区間は46.1〜54.5。 TDLeaf(λ)で全幅深さ0よりは強いですが、まだまだって感じですね。