2018-01-24 チマチマと改良 開発日記 まず、RMSPropよりMomentumSGDの方が、駒割とかの収束が速いらしい事が分かったので、そっちに変更。 それから、今までは勾配計算ルーチンに「λ収益と選択した手の評価値の自乗誤差最小化」の項があったんですが、λ収益も評価値も「勝率の近似*1」と見なせるので、この部分を「自乗誤差の最小化」から「交差エントロピーの最小化」に置き換えてみました。 とりあえず三目並べでは収束するのは確認済みで、現在学習中です。 *1:範囲が-1〜+1なので、これを0〜+1に変換しないと、正確には近似とは呼べませんが