まず、RMSPropよりMomentumSGDの方が、駒割とかの収束が速いらしい事が分かったので、そっちに変更。 それから、今までは勾配計算ルーチンに「λ収益と選択した手の評価値の自乗誤差最小化」の項があったんですが、λ収益も評価値も「勝率の近似*1」と見なせる…
400万局まで粘ってみるつもりでしたが、心が折れそうなんで何か改良してリトライしてみます。 パラメータの推移を見る限りでは、現行バージョンの方が素性は良さそうなんで、期待してるんですけどねぇ。
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。