交差エントロピーでパラメータが振動するのは、仕様らしい
http://d.hatena.ne.jp/Gasyou/20171209/1512803023 で書いた現象の続報。
まず、交差エントロピーの微分の式を単純に微分したものから、ひまわりの山本一将さんに教えて貰った式に変更。式自体はかなりシンプルですし、これでバグってたら私にはどーしよーもないってレベルの実装になりました。
んで、軽く実験した結果、三目並べ・5五将棋共に修正後もパラメータが振動。交差エントロピーのみだとこうなるもんらしいという結論になりました。
現在は報酬との自乗誤差+交差エントロピー+PGLeaf+L2正則化の損失関数で学習させたものをsspとスパーリング中。まだ対局数少ないんで結果は書きませんが、明日夜には1000局終わるはずです。