2012-08-13 さて、次はどうしようか? 開発日記 とりあえずやりたい事。 方策勾配法のテスト 合議とTDLeaf(λ)/方策勾配法を組み合わせてみる 評価関数の改良(正則化かベイズ回帰を導入) 自己対戦学習時にABC探索を使ってみる 本将棋でテスト とりあえずは上から順番にやってみようかなぁ… あ、さっきからやってる連続対戦は現在7-0-9で負けが先行。ひょっとして、過学習してるのかな?