Noisy Networkを応用してみたら意外と良い感じになってきた
その論文は読んでないですが概要だけ見ると https://t.co/xgorf3i1Gd https://t.co/JrAKUakySh でやってることと同じように思いました
— mooopan (@mooopan) 2018年12月17日
Twitterで@mooopan氏に教えてもらった論文を参考にして、線形の評価関数にノイズを加えるのを試してみました。
http://gasyou.is-mine.net/ura/ の上3つのグラフがパラメータの推移なんですが、線の上下の帯状の部分が標準偏差です。
これを見ると、ある程度値が確定しているパラメータは標準偏差が小さく、未確定のは大きくなっている様です。
現時点では、24万5千局自己対局後のパラメータで対ssp(ハンディキャップマッチ)の勝率が35%前後。まぁ、学習初期としては悪くない値です。
前回PGLeaf Zweiで最高勝率69.3%を達成した時は1000万局学習したので、2週間程度放置すれば追い付けるかどうか判断出来そうです。