GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2017-11-01から1ヶ月間の記事一覧

VS ssp(5五将棋モード) 勝率90%まであと少し!!!

昨夜からの連続対局の結果、845勝110敗で勝率88.5%。今の検証用マシンに移行してからは過去最高の勝率です。 さて、こうなると勝率高すぎて正確な検証が出来ない可能性が出てくるんで、前に実装したハンディキャップモード*1で連続対局させてみますか。 *1:…

GPW2017から3本

強化学習を用いた評価関数の作成手法の信頼性の分析 将棋における勾配ブースティング木を用いた評価関数 Hybrid Reward Architecture を用いたリアルタイムな意思決定の改善 どれも非常に面白そうなんですが、現在AlphaGo Zeroの学習ルーチンを真似するので…

とある関数の最大化問題

交差エントロピーのみで学習が収束しない件、今更ながら自乗誤差と交差エントロピーのログ出力を追加してみました。 んで、三目並べで学習させてログを見てみると…全然最大化出来ていない (´・ω・`) バグだな。バグだろうなぁ。 でも、試しに神様を教師にし…

VS ssp(5五将棋モード) 最高勝率を更新!!!

先日書いたパラメータで、828勝152敗、勝率84.5%。PGLeaf改を上回ってくれました。 んで、上記パラメータは自己対局91万局なんですが、192万局まで進んだパラメータがあるんで、現在そっちで連続対局中。 まだ対局数が少ないんで何とも言えませんが、指し手…

TDLeaf(λ)+L2正則化+RMSProp最強説

AlphaGo Zeroの真似っ子中なんですが、交差エントロピーの項が怪しいのでそこを外して学習中。構成はタイトルの通り。 んで、5五将棋モードで駒割の値が収束してしばらく経ったんで、sspと連続対局中。 現時点で24勝0敗、95%信頼区間は85.8〜100.0。 なんか…

AlphaGo Zeroの学習法 途中経過

どうも交差エントロピーの勾配を計算する部分が怪しい。試しに三目並べで交差エントロピーのみで学習させると、上手く収束しない。 という訳で、現在大絶賛テスト&デバッグ中です。

AlphaGo Zeroショック

何と言うか、私が将棋でやりたかった事のほぼ全てをやられた感がありますが、「成功したんなら真似しよう」という事で論文を読んで、真似出来そうな部分は真似てみました。 んで、現状。 まず、テスト用の三目並べモードでは学習成功。 そんでもって、当面の…

実現確率探索に論理バグ発見

バグと言うか、仕様の不備かな。Scoutしとけば良い所で、通常のαβウィンドウで探索してた。 ただ、今は学習ルーチンの修正中なんで、グッと我慢して後で修正する事にします。