2014-04-11 報酬の計算方法を修正 開発日記 学習経過 改良型PGLeafで報酬計算の式を修正。 で、結果。23万局学習したパラメータで対ssp(5五将棋モード)は300-?-93で勝率76.3%、95%信頼区間は71.8〜80.5。 わりかしいい感じなので、次は60万局学習後のパラメータで連続対戦してみます。