GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

交差エントロピーでパラメータが振動するのは、仕様らしい

 http://d.hatena.ne.jp/Gasyou/20171209/1512803023 で書いた現象の続報。

 まず、交差エントロピー微分の式を単純に微分したものから、ひまわりの山本一将さんに教えて貰った式に変更。式自体はかなりシンプルですし、これでバグってたら私にはどーしよーもないってレベルの実装になりました。

 んで、軽く実験した結果、三目並べ・5五将棋共に修正後もパラメータが振動。交差エントロピーのみだとこうなるもんらしいという結論になりました。

 現在は報酬との自乗誤差+交差エントロピー+PGLeaf+L2正則化の損失関数で学習させたものをsspとスパーリング中。まだ対局数少ないんで結果は書きませんが、明日夜には1000局終わるはずです。