2011-01-24 うーん… 開発日記 自然方策勾配法は諦めて、方策勾配法の方を色々やってるんですが、まだバグが見つかりません。 先手だけ学習とか後手だけ学習させると、ちゃんと学習した側の勝率が100%になるんで、基本的な部分は間違ってないと思うのですが… でも、ログを見てると所々評価値・方策の変化が変だし、やっぱどっかにバグが残ってるんだとは思うのですが。 うーん、どうしたもんか…