チマチマと改良 - GA将？開発日記～王理のその先へ～

　まず、RMSPropよりMomentumSGDの方が、駒割とかの収束が速いらしい事が分かったので、そっちに変更。

　それから、今までは勾配計算ルーチンに「λ収益と選択した手の評価値の自乗誤差最小化」の項があったんですが、λ収益も評価値も「勝率の近似*1」と見なせるので、この部分を「自乗誤差の最小化」から「交差エントロピーの最小化」に置き換えてみました。

　とりあえず三目並べでは収束するのは確認済みで、現在学習中です。

*1:範囲が-1〜+1なので、これを0〜+1に変換しないと、正確には近似とは呼べませんが