2011-12-26 方策勾配法での学習再開 開発日記 パラメータ設定がおかしいって可能性があるんで、二点変更して学習させてみます。 ランダムオープニング*1を無効に 学習率を一桁下げて0.0001に 前者は効果が不明なので外しました。後者は、学習後のパラメータが変に大きくなってる感じなんで、それ対策で。 他はこれまでと同じで、ソフトマックス方策+線形評価関数+静止探索4手。 とりあえず、これで数日様子を見ます。 *1:自己対戦学習時に、対局開始から数手はランダムに指す