VS ssp（5五将棋モード）勝率90％まであと少し！！！

学習経過

昨夜からの連続対局の結果、845勝110敗で勝率88.5％。今の検証用マシンに移行してからは過去最高の勝率です。さて、こうなると勝率高すぎて正確な検証が出来ない可能性が出てくるんで、前に実装したハンディキャップモード*1で連続対局させてみますか。 *1:…

GPW2017から3本

後で読む

強化学習を用いた評価関数の作成手法の信頼性の分析将棋における勾配ブースティング木を用いた評価関数 Hybrid Reward Architecture を用いたリアルタイムな意思決定の改善どれも非常に面白そうなんですが、現在AlphaGo Zeroの学習ルーチンを真似するので…

開発日記

交差エントロピーのみで学習が収束しない件、今更ながら自乗誤差と交差エントロピーのログ出力を追加してみました。んで、三目並べで学習させてログを見てみると…全然最大化出来ていない (´・ω・`) バグだな。バグだろうなぁ。でも、試しに神様を教師にし…

開発日記学習経過

先日書いたパラメータで、828勝152敗、勝率84.5％。PGLeaf改を上回ってくれました。んで、上記パラメータは自己対局91万局なんですが、192万局まで進んだパラメータがあるんで、現在そっちで連続対局中。まだ対局数が少ないんで何とも言えませんが、指し手…

開発日記

AlphaGo Zeroの真似っ子中なんですが、交差エントロピーの項が怪しいのでそこを外して学習中。構成はタイトルの通り。んで、5五将棋モードで駒割の値が収束してしばらく経ったんで、sspと連続対局中。現時点で24勝0敗、95％信頼区間は85.8〜100.0。なんか…

開発日記

どうも交差エントロピーの勾配を計算する部分が怪しい。試しに三目並べで交差エントロピーのみで学習させると、上手く収束しない。という訳で、現在大絶賛テスト＆デバッグ中です。

開発日記

何と言うか、私が将棋でやりたかった事のほぼ全てをやられた感がありますが、「成功したんなら真似しよう」という事で論文を読んで、真似出来そうな部分は真似てみました。んで、現状。まず、テスト用の三目並べモードでは学習成功。そんでもって、当面の…

開発日記 TODO

バグと言うか、仕様の不備かな。Scoutしとけば良い所で、通常のαβウィンドウで探索してた。ただ、今は学習ルーチンの修正中なんで、グッと我慢して後で修正する事にします。