GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

開発日記

AlphaGo Zeroショック

何と言うか、私が将棋でやりたかった事のほぼ全てをやられた感がありますが、「成功したんなら真似しよう」という事で論文を読んで、真似出来そうな部分は真似てみました。 んで、現状。 まず、テスト用の三目並べモードでは学習成功。 そんでもって、当面の…

実現確率探索に論理バグ発見

バグと言うか、仕様の不備かな。Scoutしとけば良い所で、通常のαβウィンドウで探索してた。 ただ、今は学習ルーチンの修正中なんで、グッと我慢して後で修正する事にします。

合議は「無駄の多い」「ダメな」アルゴリズムなのか?

前書き 以前、とある方から「何で合議という無駄の多いアルゴリズムを使っているんですか? 並列αβ探索で良いじゃないですか。」という趣旨のメールを頂きました。 そのメールには単に「並列αβ探索より合議の方が強くなったので採用しています。」とだけ返信…

プチ将棋の作者様へのお願い

ウェブサイトにメールアドレスが載っていなかったのでここに書きます。 5五将棋での連続対局用にプチ将棋&sspを使わせてもらっていますが、「千日手が先手の負け扱いにならない」「打ち歩詰めが反則扱いにならない」というバグが有ります。 もしここをご覧…

PGLeaf Zwei開発開始

PGLeafの改良版を色々作ってきたのですが、○○-PGLeafとかPGLeaf with ××とかって名前が冗長になってきました。 という訳で、今まで上手く行った各種改良をまとめて実装したものを「PGLeaf Zwei」と呼ぶ事にしました。 ちなみにPGLeafのベースはREINFORCEなの…

あれ?

http://d.hatena.ne.jp/Gasyou/20170820/1503212604 で書いた「一部のパラメータがマイナスになる現象」ですが、L2正則化無効にしても起きました。 という事は、これが正常なのか、L2正則化以外の部分でバグってるかのどっちかですね。

びみょ〜 (´・ω・`)

http://pc.watch.impress.co.jp/docs/news/1076621.html 「NICT、レーザーカオスを用いて強化学習を超高速化」というタイトルに惹かれて見てみたんですが、要するに乱数生成器の質と速度を高速化した「だけ」って話っぽいですね。

バグ、いまだ検出出来ず

諸々のチェック用ルーチン有りで22時間走らせて、2万7千局経過。チェックにはどれにも引っかかっていません。 KKP/KPPの一部パラメータがほぼ0やマイナスを行ったり来たりしてるんで、昨日書いた現象が起きている可能性は高いんですが、何が原因なんでしょう…

【助けて】バグの検出で手詰まり感【偉い人】

2つ上で書いたバグ、アサーションを全部有効にして、PVと評価値の突き合わせとか、メモ化した評価値と逐次計算した評価値の突き合わせとか、全部有効にしてもエラー扱いにならないです。 ついでに言えば、L2正則化は実質2ステップしかコードが増えて無くて、…

な・・・に・・・

直上で書いた、L2正則化係数0にしたバージョンを開発用マシンに投入。現在7万7千局経過しました。通常なら、ほぼパラメータのプラマイの傾向が明確になって来る時期です。 …で、ですね、出ちゃいました、王将の移動可能範囲のパラメータの一部がマイナスに…

L2正則化の途中経過@5五将棋

※各グラフはスケールが異なるのでご注意下さい。 L2正則化係数を1E-4からはじめて、現在は1E-7まで下げましたが、依然変な様子。プラスになって欲しいパラメータの一部がマイナスになったりしています。 …一旦、L2正則化係数を0にして*1様子見た方が良いのか…

GA将が振り飛車苦手なのは良く分かった (´・ω・`)

前々からずっと気になっていた、本将棋で飛車を振った直後に角道開けて馬を作られる現象、ようやく原因が判明しました。 まず、探索ルーチンの方は正常でした。角道開けてから2七角成まで読めてます。枝刈りのし過ぎとかではありませんでした。 んで、肝心…

【主に】現在の課題と、今後の展望【強化学習方面】

えー、まず前提として、現在のGA将の学習ルーチンですが、EB-PGLeafと呼んでいるPGLeafの拡張版がベースです。 んで、これには桜丸さん提唱の「レベルアップ判定ルーチン」が有ります。エース(過去最強)の評価関数パラメータを保存しておいて、Greedy方策…

Null Move Pruningと必至絡みの微妙なバグ、発生

「必至をかける→パスする→詰まないじゃん!」という誤解をしてしまう現象が起きています。 んで、実際はパス以外を指すと全て詰む手順だったりするんで、終盤で大反省してしまう事がチラホラと。ついでに、連続対局がエラーになって止まる事もあり、困りまし…

対ssp(5五将棋モード)のベースライン

試しに、駒割のみ適当に初期化して、後の三駒関係+αはごく小さな乱数で初期化した評価関数を使って、sspと対局させてみました。 んで、驚愕の事実!!! 2勝21敗で勝率8.7%でした!!! 全く勝てないかと予想してたんですが、駒割のみでも意外と行けるもん…

EB-PGLeafの微調整中

パラメータの更新回数を、本譜の手のPV Leafでのみ更新する様に変更。 ミニバッチサイズ*1を100→1000に変更。 Bonanza 6.0のFV_SCALEに相当する値*2を微調整。 王将の移動可能範囲評価で特徴量計算式を修正。 んで、現在5時間ほど学習させて、駒割はほぼ収束…

前の論文の手法は断念(半分だけ)

http://d.hatena.ne.jp/Gasyou/20170701/1498906118 上記論文の手法ですが、5五将棋で使用するのは難しそうです。 と言うのは、論文中でρとρ'という値を計算する必要があるのですが、現状のGA将の評価関数ではどちらも0.0になってしまいます*1。多倍長浮動小…

さて、今後のプランはどうしようか

http://d.hatena.ne.jp/Gasyou/20170701/1498906118 先日書いた論文ですが、アルゴリズムの解説まで目を通して、残るは理論的な部分と実験結果のみ。ボチボチ読んで行きますが、とりあえずGA将に組み込む為の設計は可能な段階だと思います。 んで、以前書い…

ダメでした _| ̄|○

前に書いた、探索深さをランダムに決める方式での学習ですが、強くなりませんでした。 正確に書くと、学習序盤は比較的伸びが良かったんですが、対局数を増やしてもそっからあんまり伸びませんでした。最終的に、対ssp(5五将棋モード)で勝率77%前後だった…

過去半年で最高の出来(当社比)になる!…かも

CNNを使ったActor-CriticとPGLeafのハイブリッド構成ですが、全然強くなる気配がありません。 …で、ですね。ちょっと思い付いたんですよ。従来のPGLeaf改の問題点。 今までは、全幅3手・静止探索10手とかで探索深さを固定して学習させてました。 ただ、これ…

行きつ戻りつ、でも元には戻れなかったっポイ

前回の日記からしばらく間が空きましたが、ぼちぼち進んでます。 まず、5五将棋・本将棋でもDNNを使ったActor-Criticが動く様に修正。ただ、5五将棋でもCriticの処理*1に1局あたり200ミリ秒とかかかってて実用的ではありませんでした。 んで、次にやったのが…

三目並べの学習はほぼ成功

目標探査率*1が0.5の場合、92000局前後・約90分で学習成功。0.33だと19万局経過後もまだ収束していません。 グラフには出してないですが、先手側が学習した評価関数で、後手完全読みプレイヤーの場合は、もっと早期に収束しています。 三目並べなので、「真…

オーバーフィッティングしてるよ (´・ω・`)

えー、うちのCritic曰く「三目並べの初期局面の評価値は0.6点」だそうです。勝率80%に相当する数字。 うん、バグってますね。 どこが悪いのかな〜。ネットワークがデカすぎる*1? それとも学習率*2? RMSPropが悪さしてるって事は無いよね〜、多分。 15:14:…

Deep Learning始めました

Caffeの導入も無事終わり、現在は三目並べにDeep Learningを利用して実験中です。 んで、困った現象が一つ。 まず、学習自体はちゃんと出来ている様です。学習した評価関数*1を使用して自己対局すると、ちゃんと引き分けます。また、片方のプレイヤーを学習…

Caffeはじめました(数カ月ぶり3度目)

Twitterでもちらっと書きましたが、GA将にDeep Learningを取り入れたくてCaffeを使ってみる事にしました。 と言っても、対局用(実戦用)の評価関数は三駒関係+αの線形のやつで、学習時のみDNNを使用する予定です。 やりたいのは、基本的にActor-Criticアル…

VS ssp(5五将棋モード)

KKPのバグを潰して、EB-PGLeafで147万局学習させたパラメータ。割引率は1.0。 結果、782勝190敗で勝率80.5%。あっさりと前回UEC杯時のパラメータを超えました。 まぁ、元々2つほどバグが有ったんで、強くなって当然っちゃ当然なんですが。 んで、現在は238…

KKPバグってるのか正常なのか…

http://d.hatena.ne.jp/Gasyou/20170521/1495317822 の続き。 え〜、学習を進めた結果、KKPで先手55玉・後手11玉に対する先手33金の価値が、マイナスになりました。 んで、これが正常なのか異常なのかの判断が付かないんで、玉の位置は同じで33に銀が居る場…

ベースラインの測定完了

現状手持ちの最強パラメータを使って、Athlon 5350マシンでsspとのスパーリングが終わりました。 結果、647勝310敗で勝率67.6%。 という訳で、当面はこれを越えるのを目標にしていきます。

新 検証用マシンのセットアップ完了

試しにGA将のベンチマーク取ってみたら、5五将棋モードで0.8Mnps _| ̄|○ ちなみに4コアフル稼働の状態でコレですw RyzenやCore i7に敵わないのは分かりきっていましたが、ここまで遅いとは… ま、とりあえずこのマシンで当面は検証していく事にします。

満身創痍(PC環境が)

開発用マシンと学習用マシンはまぁ無事なんですが、棋力検証用マシン*1が熱暴走で頻繁に落ちる様に。ついでに、半年ほど起動していなかったfloodgate常駐用マシン*2はOSが吹っ飛んでるらしく、起動不可能に。 という訳で、FX-8350は引退してもらって、Athlon…