2013-01-08 あ、そう言えば 開発日記 学習経過 ↑とか↓とかで書いてる学習結果ですが、以下の条件での学習です。 方策勾配法(PGLeaf) ソフトマックス方策(温度可変) 探索は全幅1手+静止探索6手 自己対戦部分のみ並列化 学習は10万局で打ち切り …あぁ、ヒマだ。学習終わるまでやる事無いや。