2009-12-05 旧バージョンパラメータ vs ssp 開発日記 117-0-99で勝率54.2%。95%信頼区間は47.3〜60.9。 まぁ、sspと互角にはなったみたいですね。 使用したパラメータは旧バージョンで学習させたもの。探索は全幅1手+静止探索で、目標探査率は0.1。off-policyモード。 今度は詰め将棋を組み込んだバージョンで対戦させてみます。