GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2015-10-01から1ヶ月間の記事一覧

今週末にやるべき事

本将棋モード時のDropoutの挙動を修正 フィッシャクロックルールの追加時間を思考時間制御に反映(GPW杯対策) とりあえず、これだけやれば大丈夫かな。

やっちまったぁ!!

http://wdoor.c.u-tokyo.ac.jp/shogi/view/2015/10/31/wdoor+floodgate-600-10+Gasyou_Core-i7-5960X_8c16t+baby_magnum+20151031050004.csa 勝ちを読み切った瞬間に投了しちゃいました _| ̄|○ 原因はタイミング依存の単純なバグだったんで、現在は修正済み…

思考時間のマージン調整

time up連発してたんで、思考時間のマージンをやや長めに調整したバージョンに差し替えました。 20:00の回から反映されるはずです。

プロセス・スレッド優先度の話

現在のGA将は8クライアントの合議ですが、スレッドとしては合議サーバが1スレッド・合議クライアントが計8スレッド走っています。 んで、Core i7 5960X*1マシンでは問題なく思考時間制御が出来ているんですが、Athlon 5350*2マシンだと時々ラグが出る(思考…

再度放流します

色々な持ち時間・対局相手で一晩ローカル対局した結果、バグで落ちる事は無くなりました。 という訳で、18:30の回から放流します。 …レーティング付くまで、ちゃんと動くかなぁ。

絶賛デバッグ中

合議が動き出しはしたのですが、まだまだバグ持ちなのでデバッグ中。 んで、今日も2件ほど潰しました、ここに書くのがはばかられるほどアホらしいのを2つ。 さて、んじゃ寝ます。

タイマーのバグの件

まず、タイマーのバグだと思ってたのはそうではありませんでした。あと、OS依存の問題でも無さそうです(多分)。 最初に原因を書くと、詰将棋ルーチン用スレッド*1にアフィニティマスクを設定していたのが原因でした。 元々、詰将棋ルーチンは「マルチスレ…

VS ssp(5五将棋モード)

Dropoutを用いた多数決合議を実装したバージョンでの結果。 959-0-41で勝率95.9%、95%信頼区間は94.5〜97.0になりました。 同じマシン*1・同じ評価関数パラメータで並列探索バージョンだと844-0-154で勝率84.6%でしたので、確実に*2強くなっているみたい…

一旦引っ込めます

まだバグ持ちみたいで、対局者の皆様、ご迷惑をお掛けしました。 という訳で、一旦放流はやめてローカルでテストしてみます。 …てか、勝ちを読み切った時に(むちゃくちゃシビアな)タイミング依存の問題が有るってのは、早めに見つかって良かったかも。本番…

23:00の回から放流します

なんか、原因不明のバグが有ってWindows 10マシンでは思考時間制御にバグが有る*1ので、開発用のWin 7マシンで。 ザックリ調べた結果、Core i7 5960XなWin 10マシンとAthlon 5350のWin 10マシンはNGで、Core i7 4930KのWin 7マシンはOKでした。 まだOS依存の…

思考時間制御用のデータ採取完了

5五将棋用のデータが出揃って集計してみました。 んで、どうも3段階の制御だと無駄が多そうなので、ちょっと修正します。 まず、2段階目終了時点で、得票数の差が1票以下なら思考時間延長時に50〜40%程度の割合で指し手が変化します。2票〜4票程度の差でも2…

VS ssp(5五将棋モード)途中経過

608-0-28で勝率95.6%、95%信頼区間は93.7〜97.1。イイ感じです。 とりあえずこのまま1000局まで続行させてみます。

VS ssp(5五将棋モード)途中経過

さっき開始したばかりなので対局数少ないですが、現在21勝2敗。良いペースです。 この調子で、勝率9割行ってくれると嬉しいなぁ。

痛恨のミス発覚

探索ルーチンから合議サーバに最善手更新を通知するロジックに漏れがあって、正常に動いていませんでした。 んで、修正したんで対局は出来る様になったんですが、問題は思考時間制御の基礎データ。 こっちにも影響があるんで、データ取り直しです _| ̄|○ と…

長年のバグをFIX

25回選手権時の無明戦の痛恨の千日手、ようやく原因が判明しました。 原因としては単純で、詰将棋ルーチン内部での千日手の扱いが不正だったのが理由でした。 修正して軽くテストした感じ、ちゃんと動いています。 …さて、後は合議の方をちゃんと動く様にし…

思考時間制御の実装はほぼ完了&合議での探索も半分完成

まず、思考時間制御のルーチンは完成。みっちりテストしたんで多分大丈夫。 一応、秒読み有り(電王トーナメント用)・切れ負け(UEC杯5五将棋大会用)・フィッシャークロックルール(GPW杯用)の3通りに対応した、ハズ。 んで、前も書いた様に思考時間は3段…

思考時間制御に着手

本当はαβ探索をリファクタリングしてからやりたかったんですが、そっちは失敗したんで第25回選手権バージョンの探索ルーチンを使う事にして改良開始。 んで、今日は合議の票数ベースの思考時間制御の為のデータを収集するコードを書いて終了。 遅くとも明日…

Off-Policy PGLeafは失敗

色々試してみたんですが、5五将棋では上手く行きませんでした。 んで、学習ルーチンの改良は後回しにして、電王トーナメント&UEC杯5五将棋大会に向けて準備中。 多数決合議で対局するルーチンをちゃんと実装して、合議の票数ベースで思考時間制御をする所ま…

久々の更新

開発日記を書くのも久々ですが、とりあえず現状。 合議の方の乱数のパラメータ調整ですが、正規乱数をパラメータに足すよりも、Dropoutで1割程度のパラメータを強制的に0にした方が強くなる様です。 という訳で、電王トーナメント・UEC杯5五将棋大会にはDrop…

Exploration in Gradient-Based Reinforcement Learning

http://dspace.mit.edu/bitstream/handle/1721.1/6076/AIM-2001-003.pdf?sequence=2

Deterministic Policy Gradient Algorithms

http://jmlr.org/proceedings/papers/v32/silver14.pdf