GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

方策勾配法での学習再開

 パラメータ設定がおかしいって可能性があるんで、二点変更して学習させてみます。

  1. ランダムオープニング*1を無効に
  2. 学習率を一桁下げて0.0001に

 前者は効果が不明なので外しました。後者は、学習後のパラメータが変に大きくなってる感じなんで、それ対策で。

 他はこれまでと同じで、ソフトマックス方策+線形評価関数+静止探索4手。

 とりあえず、これで数日様子を見ます。

*1:自己対戦学習時に、対局開始から数手はランダムに指す