GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

VS ssp(5五将棋モード)

 一昨日書いた目標探査率をランダムウォークさせる学習ですが、ようやく適切なメタパラメータ*1が決まったんで、一晩連続対局させてみました。

 学習条件は方策勾配法・全幅1手+静止探索4手で線形の評価関数を用いるものです。

 んで、約24万局学習後のパラメータでsspとスパーリング中。

 現在17-0-4で勝率81%!!! 対局数が少ないんでまだ何とも言えませんが、多少なりとも強くなってる気がします。

*1:乱数の分散とか温度の変化度合いとか