2010-09-21 一旦基本的なところに戻ってみます 開発日記 三目並べの方策勾配法で、先手のみ学習する様にしてみたんですが、先手の勝率が50〜60%のまま変化しません。 どっか勘違いしている可能性があるので、まずは多碗バンディット問題で方策勾配法の特性を見てみようと思います。