GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

チマチマと改良

 まず、RMSPropよりMomentumSGDの方が、駒割とかの収束が速いらしい事が分かったので、そっちに変更。

 それから、今までは勾配計算ルーチンに「λ収益と選択した手の評価値の自乗誤差最小化」の項があったんですが、λ収益も評価値も「勝率の近似*1」と見なせるので、この部分を「自乗誤差の最小化」から「交差エントロピーの最小化」に置き換えてみました。

 とりあえず三目並べでは収束するのは確認済みで、現在学習中です。

*1:範囲が-1〜+1なので、これを0〜+1に変換しないと、正確には近似とは呼べませんが