2013-10-01 とりあえず4x4リバーシは完了 開発日記 学習経過 線形の評価関数を使って、1,000局前後でちゃんと収束する様になりました。 TD誤差とその予測値の相関係数ですが、0.5前後となりまずまずの値。 んで、今朝から走らせていた本将棋の学習ですが、9,500局経過後のパラメータでLesserkai相手に17-0-3。 まだ伸び代はあると思うので、一晩二晩走らせてみてちゃんと強くなるか確認してみます。 …あ、そだ。学習の並列化はどうしよう。全く考えてなかった。