GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2017-01-01から1年間の記事一覧

VS ssp(5五将棋モード・ハンディキャップマッチ) 勝率69.6%

http://d.hatena.ne.jp/Gasyou/20171222/1513929159 と同様の学習設定で、王将の移動可能範囲評価を有効にしたもの。対局数は420万局。 結果、683勝299敗で勝率69.6%。僅かですが、着実に成長しています。 んで、自乗誤差の勾配計算ルーチンにバグが有った…

交差エントロピー、やっぱおかしい(はず)

三目並べで、温度固定・探索深さをランダムに決定って条件で学習させた結果。 初手の価値の推移。 初手の勾配。横軸は角で、二つの系列が辺と中央。 一枚目は「まぁこんなもんかな」って印象だけど、二枚目ではっきり相関関係が見て取れるんで、「何かおかし…

バグ、だよなァ

王将の移動可能範囲の勾配を自乗誤差・交差エントロピー・PGLeafの各項ごとに100区間移動平均でプロットしてみましたが、交差エントロピーのグラフがどうにもおかしい。 自乗誤差のグラフはまぁ正常に見えるんで、評価関数のバグって線は薄いはず。 となると…

VS ssp(5五将棋モード・ハンディキャップマッチ) 勝率68.7%

まず、王将の移動可能範囲のパラメータの推移が何かおかしかったんで、一旦この評価項目は無効にしてみました。 学習ルーチンは、損失関数は前に書いた設定のままで、勾配ノイズ*1を実装したもの。 んで、結果。667勝304敗で勝率68.7%。勾配ノイズ無しだと5…

VS ssp(5五将棋モード) 勝率65.6%

損失関数を「λ収益*1との自乗誤差+交差エントロピー+PGLeaf+L2正則化」に修正し、132万局自己対局したパラメータ。あ、以前書き忘れていましたが、一時期からL2正則化無効にして元に戻すの忘れてたんで、今回の結果からL2正則化有効に戻ってます。 思考時…

交差エントロピーでパラメータが振動するのは、仕様らしい

http://d.hatena.ne.jp/Gasyou/20171209/1512803023 で書いた現象の続報。 まず、交差エントロピーの微分の式を単純に微分したものから、ひまわりの山本一将さんに教えて貰った式に変更。式自体はかなりシンプルですし、これでバグってたら私にはどーしよー…

交差エントロピーのみの損失関数でパラメータが振動する現象

三目並べ・5五将棋で各種オプティマイザを使ってパラメータの推移を見てみました。 三目並べモード、SGD。 三目並べモード、RMSProp。 三目並べモード、AdaDelta。 5五将棋モード、AdaDelta。 つまり、ゲームの種類(And 探索ルーチン・評価関数)やオプティ…

VS ssp(5五将棋モード) 勝率62.9%

損失関数を「報酬との自乗誤差+交差エントロピー+PGLeaf」にしたもので、自己対局数は135万。 結果、606勝357敗で勝率62.9%、過去最高を更新。微妙な向上幅ではありますが。

VS ssp(5五将棋モード) 勝率62.1%

損失関数をλ収益との自乗誤差のみから、自乗誤差+交差エントロピーにしたもの*1に変更して120万局学習させたパラメータ。 結果は609勝371敗で勝率62.1%。思考時間はGA将0.17秒、ssp1秒のハンディキャップマッチです。 …ただ、このバージョンのパラメータ、…

VS ssp(5五将棋モード) ハンディキャップマッチベースライン

一昨日と同じパラメータで、GA将の思考時間を通常の0.1倍にした結果、490勝469敗で勝率51.1%。95%信頼区間は47.9〜54.3。 という訳で、当面はこの設定で勝率上げるのを目標にしていきます。

VS ssp(5五将棋モード) 勝率90%まであと少し!!!

昨夜からの連続対局の結果、845勝110敗で勝率88.5%。今の検証用マシンに移行してからは過去最高の勝率です。 さて、こうなると勝率高すぎて正確な検証が出来ない可能性が出てくるんで、前に実装したハンディキャップモード*1で連続対局させてみますか。 *1:…

GPW2017から3本

強化学習を用いた評価関数の作成手法の信頼性の分析 将棋における勾配ブースティング木を用いた評価関数 Hybrid Reward Architecture を用いたリアルタイムな意思決定の改善 どれも非常に面白そうなんですが、現在AlphaGo Zeroの学習ルーチンを真似するので…

とある関数の最大化問題

交差エントロピーのみで学習が収束しない件、今更ながら自乗誤差と交差エントロピーのログ出力を追加してみました。 んで、三目並べで学習させてログを見てみると…全然最大化出来ていない (´・ω・`) バグだな。バグだろうなぁ。 でも、試しに神様を教師にし…

VS ssp(5五将棋モード) 最高勝率を更新!!!

先日書いたパラメータで、828勝152敗、勝率84.5%。PGLeaf改を上回ってくれました。 んで、上記パラメータは自己対局91万局なんですが、192万局まで進んだパラメータがあるんで、現在そっちで連続対局中。 まだ対局数が少ないんで何とも言えませんが、指し手…

TDLeaf(λ)+L2正則化+RMSProp最強説

AlphaGo Zeroの真似っ子中なんですが、交差エントロピーの項が怪しいのでそこを外して学習中。構成はタイトルの通り。 んで、5五将棋モードで駒割の値が収束してしばらく経ったんで、sspと連続対局中。 現時点で24勝0敗、95%信頼区間は85.8〜100.0。 なんか…

AlphaGo Zeroの学習法 途中経過

どうも交差エントロピーの勾配を計算する部分が怪しい。試しに三目並べで交差エントロピーのみで学習させると、上手く収束しない。 という訳で、現在大絶賛テスト&デバッグ中です。

AlphaGo Zeroショック

何と言うか、私が将棋でやりたかった事のほぼ全てをやられた感がありますが、「成功したんなら真似しよう」という事で論文を読んで、真似出来そうな部分は真似てみました。 んで、現状。 まず、テスト用の三目並べモードでは学習成功。 そんでもって、当面の…

実現確率探索に論理バグ発見

バグと言うか、仕様の不備かな。Scoutしとけば良い所で、通常のαβウィンドウで探索してた。 ただ、今は学習ルーチンの修正中なんで、グッと我慢して後で修正する事にします。

Cold-Start Reinforcement Learning with Softmax Policy Gradients

https://arxiv.org/pdf/1709.09346.pdf やってる事(Softmax方策+方策勾配法)は基本的にPGLeafも同様なので、何かの参考になるかも。

合議は「無駄の多い」「ダメな」アルゴリズムなのか?

前書き 以前、とある方から「何で合議という無駄の多いアルゴリズムを使っているんですか? 並列αβ探索で良いじゃないですか。」という趣旨のメールを頂きました。 そのメールには単に「並列αβ探索より合議の方が強くなったので採用しています。」とだけ返信…

プチ将棋の作者様へのお願い

ウェブサイトにメールアドレスが載っていなかったのでここに書きます。 5五将棋での連続対局用にプチ将棋&sspを使わせてもらっていますが、「千日手が先手の負け扱いにならない」「打ち歩詰めが反則扱いにならない」というバグが有ります。 もしここをご覧…

PGLeaf Zwei開発開始

PGLeafの改良版を色々作ってきたのですが、○○-PGLeafとかPGLeaf with ××とかって名前が冗長になってきました。 という訳で、今まで上手く行った各種改良をまとめて実装したものを「PGLeaf Zwei」と呼ぶ事にしました。 ちなみにPGLeafのベースはREINFORCEなの…

あれ?

http://d.hatena.ne.jp/Gasyou/20170820/1503212604 で書いた「一部のパラメータがマイナスになる現象」ですが、L2正則化無効にしても起きました。 という事は、これが正常なのか、L2正則化以外の部分でバグってるかのどっちかですね。

びみょ〜 (´・ω・`)

http://pc.watch.impress.co.jp/docs/news/1076621.html 「NICT、レーザーカオスを用いて強化学習を超高速化」というタイトルに惹かれて見てみたんですが、要するに乱数生成器の質と速度を高速化した「だけ」って話っぽいですね。

第8世代Coreシリーズ(モバイル向け)は40%の性能向上

https://japan.zdnet.com/article/35106072/ 従来のUシリーズは2コアまででしたが、第8世代ではi7/i5共に4コア・8スレッドになった様です。 んで、肝心の性能向上率が40%とされています。コア数倍増の割にはあんまり伸びてないですね。 私のノートPCはCore …

バグ、いまだ検出出来ず

諸々のチェック用ルーチン有りで22時間走らせて、2万7千局経過。チェックにはどれにも引っかかっていません。 KKP/KPPの一部パラメータがほぼ0やマイナスを行ったり来たりしてるんで、昨日書いた現象が起きている可能性は高いんですが、何が原因なんでしょう…

【助けて】バグの検出で手詰まり感【偉い人】

2つ上で書いたバグ、アサーションを全部有効にして、PVと評価値の突き合わせとか、メモ化した評価値と逐次計算した評価値の突き合わせとか、全部有効にしてもエラー扱いにならないです。 ついでに言えば、L2正則化は実質2ステップしかコードが増えて無くて、…

大学生時代の一番後悔している事

バグの再現待ちでヒマなんで、チョット思い出話を。 研究室に配属されてすぐに、SPARCマシン*1が研究室に共同使用用途で配備されたんですよ。 んで、当時の私のPCはPentium2デュアルだったんですが、先輩の作ったベンチマークでは3倍程度の速度差がありまし…

な・・・に・・・

直上で書いた、L2正則化係数0にしたバージョンを開発用マシンに投入。現在7万7千局経過しました。通常なら、ほぼパラメータのプラマイの傾向が明確になって来る時期です。 …で、ですね、出ちゃいました、王将の移動可能範囲のパラメータの一部がマイナスに…

L2正則化の途中経過@5五将棋

※各グラフはスケールが異なるのでご注意下さい。 L2正則化係数を1E-4からはじめて、現在は1E-7まで下げましたが、依然変な様子。プラスになって欲しいパラメータの一部がマイナスになったりしています。 …一旦、L2正則化係数を0にして*1様子見た方が良いのか…