2012-09-13 VS ssp(5五将棋モード) 開発日記 学習経過 一昨日書いた目標探査率をランダムウォークさせる学習ですが、ようやく適切なメタパラメータ*1が決まったんで、一晩連続対局させてみました。 学習条件は方策勾配法・全幅1手+静止探索4手で線形の評価関数を用いるものです。 んで、約24万局学習後のパラメータでsspとスパーリング中。 現在17-0-4で勝率81%!!! 対局数が少ないんでまだ何とも言えませんが、多少なりとも強くなってる気がします。 *1:乱数の分散とか温度の変化度合いとか