GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2016-01-01から1年間の記事一覧

むぅ…

上の結果、ログをよく見ると先手の勝率だけ異常に高い(8割〜9割程度)。 GA将側の先後での勝率をログに出してなかったから、出す様に修正して再度学習中だけど、どうなる事やら。 ひょっとしたら、後手の学習ロジックのどっかにバグが有る可能性も有ります…

オーバーフィッティングかな?

ssp相手に対局しての学習で、勝率が一旦上がってから下がってる。 学習条件は下記の通り。 5五将棋。 PGLeaf。 全幅5手+静止探索。 ssp側は1手1秒。 よし、正則化を有効にしてみよう。

結局、SkylakeのWindows 7サポートは2020年1月14日まで

http://pc.watch.impress.co.jp/docs/news/1014911.html 以前はサポート期間が短縮されるという話でしたが、結局それは撤回されたみたいですね。 ただ、今後登場するKaby LakeはWindows 10のみのサポートとなるみたいなので、「最新世代のCPUでWindows 7」っ…

PGMC(仮称)、とりあえず完成

アサーション有効・無効の2バージョンを2台のマシンで並行して走らせて寝る事にします。 んで、明日は本格的にテストして、それからメタパラメータの調整かな。

PGMC(仮称)、9割がた実装完了

後は強化学習エージェントとしての雑多なメソッドを実装すれば完了。今日中には出来るでしょう。 んで、ざっくり見てみた感じ、原始モンテカルロの割には「それらしい」手を選択出来ている模様。 とりあえず、今夜はアサーション有効・無効の2バージョンを並…

PGMC(仮称)の初期局面での結果

15:17:26 @ core::rl::PgMcAgent::goBench() > 26.324602sec, 160388773nodes, 379.9kplayout/sec 15:17:26 @ core::rl::PgMcAgent::goBench() > selectedMove==(25)→(34)+角, score==0.000023(1892895), pi==0.107605 15:17:26 @ core::rl::PgMcAgent::goBe…

どうぶつしょうぎモードは断念&新学習アルゴリズムの実装開始

神様相手に学習するのは無理ゲーすぎる感じです。 んで、5五将棋・本将棋用に原始モンテカルロと方策勾配法を組み合わせた学習アルゴリズムを実装中。 とりあえずプレイアウト部分のベンチマークを書いたけど、6コアマシンで340k playout/secは出た。 速度的…

第10回UEC杯 in GAT5五将棋大会は2017/03/08または09

http://minerva.cs.uec.ac.jp/~uec55shogi/wiki.cgi?page=diceshogi%5Ftournament という訳で、当面の目標は来年3月になりました。 となると、5五将棋の学習一式を3月までに完成させておいて、3〜4月は本将棋のほうで学習・調整ですかね。 まずは、5五将棋大…

どうぶつしょうぎの完全解析結果をWindows(Visual C++)で使う方法(大雑把なまとめ)

https://www.tanaka.ecc.u-tokyo.ac.jp/ktanaka/dobutsushogi/ URLは再掲。上記サイトのプログラムを以下の環境で動かす事に成功したので、メモ。 OS:Windows 7 Professional x64 開発環境:Visual Studio Community 2015 プログラムの修正が必要だった箇所は…

どうぶつしょうぎモードの実装中

https://www.tanaka.ecc.u-tokyo.ac.jp/ktanaka/dobutsushogi/ 現在、田中先生の完全解析の結果をGA将に組み込む作業の途中です。 …なんですが、一部の局面で正常に最善手を取得出来ない現象が発生。困りました。 上記サイトのプログラムが(多分)UNIX用で、…

一応、学習出来る様にはなった

将棋盤クラスは完成。打ち歩詰めとか二歩のチェックを外して、トライルールにも対応。 という訳で、一晩学習させてみます。 …引き分け率が異常に高くて、正直期待薄ですが。

合法手生成までは完了

20:49:00 @ wmain() > +---+---+---+ 20:49:00 @ wmain() > |vき|vラ|vぞ| 20:49:00 @ wmain() > +---+---+---+ 20:49:00 @ wmain() > | |vひ| | 20:49:00 @ wmain() > +---+---+---+ 20:49:00 @ wmain() > | |^ひ| | 20:49:00 @ wmain() > +---+---+---+ 20…

どうぶつしょうぎの実装開始

https://www.tanaka.ecc.u-tokyo.ac.jp/ktanaka/dobutsushogi/ とりあえず上記サイトのプログラムをダウンロードして、必要なソースをGA将のプロジェクトに追加。 んで、現在将棋盤クラスのどうぶつしょうぎ対応をしている所です。 どうぶつしょうぎはそこそ…

デバッグ完了&お知らせ

探索ルーチンのバグですが、枝刈り時にPVを取得する処理が間違っていただけでした。つまり、修正しても棋力には影響無し。多分。 んで、floodgateからは一旦引っ込めて、ローカルで連続対局させてみます。その方がサンプル数多く稼げるので。

一旦引っ込めます

探索ルーチンにバグが有る様で、現在修正中です。 という訳で、floodgateは一時中断。

そう言えば、Aspiration Searchで1件バグが有りました

バグ自体は少し前から有ったらしいんですが、今回学習ルーチンを実装して、パラメータの推移が異常だったので気が付きました。 案外、学習させているともう1つ2つはバグが見つからないかなぁ、と期待していま。

久々にハマった _| ̄|○

現在、探索パラメータの学習ルーチンを書いている途中ですが、学習中のパラメータをファイルに書き出す際に*1エラー発生。エラーコードは13。 別段パーミッションが変とかそういう事も無かったんで、下記のサイトを参考にエラーメッセージを表示させてみまし…

思考時間のマージン調整しました

マージン調整していないまま(残り時間一杯まで使う設定)でfloodgateに投入してしまっていたので、修正したバージョンを18:30の回から投入します。 対局者の皆様、ご迷惑をお掛けしました。

実験用の探索ルーチンを投入します

http://wdoor.c.u-tokyo.ac.jp/shogi/view/show-player.cgi?event=LATEST&filter=floodgate&show_self_play=1&user=Gasyou_fv.bin_FX-8350_8c Gasyou_fv.bin_FX-8350_8cという名前で、今日の14:00の回から放流しました。 中身ですが、評価関数はBonanza 6.0…

Futility Pruningにバグ発見

1つのパラメータを2箇所で使用していた為、学習結果がおかしくなっていました。 という訳で、学習用マシンには修正版を投入。floodgateの方はパラメータ手打ちバージョンに差し替えました。

00:30の回から探索パラメータを更新します

2時間半ほど学習させた探索パラメータにファイルを差し替えて投入します。 ローカルでsspとテスト対局させた所、多少マシになっている感じでした。

お久しぶりです

森岡です。一応、生きていました。 んで、タイトル(の後ろ)に書きましたが、ポリシー、捨てようかなぁと検討中。 今までは「プロ棋士の棋譜を使わずに学習」ってのに拘ってましたが、そこを方向転換。 つっても、今更教師あり学習に転向したんじゃ10年分周…

選手権はキャンセルします

諸々の体調悪化により、選手権に出られるメドが立たなくなりましたので、キャンセルしました。 関係者の皆様には、直前のキャンセルでご迷惑をお掛けして申し訳ありません。 ただ、GA将の開発を辞めるわけでは無いので、また来年(OR 秋のイベント)でお会い…

あ、忘れてた

アピール文書書かないと失格になってしまう…

AlphaGoの学習アルゴリズムの解説記事

http://itpro.nikkeibp.co.jp/atcl/column/14/090100053/021000126/?ST=bigdata&P=2 (ITProへのユーザ登録が必要です) 「AlphaGoは自己対局からの強化学習で強くなった」と理解していたのですが、微妙に違ったみたいです。 私が考えていたのは(&今GA将で…

AlphaGo 4勝1敗でしたか

チョロっとニュースを眺めただけなんですが、劣勢の局面から挽回したりなんだかんだあって、見応えがあった対局みたいですね(私は囲碁はサッパリ分かりませんが)。 んで、困った事が一つ。 今後「強化学習でコンピュータ将棋の評価関数パラメータの調整を…

悩ましい二択

評価関数パラメータに関しては、現在学習用マシンで走らせている最中です。 これが収束するのはおそらく4月に入ってからなので、それまでの間に何か別の事をしようかな、と検討中。 んで、やりたい事は「探索パラメータの学習」と決まっているのですが、選択…

全幅3手+静止探索で学習開始

学習用マシンでは、全幅3手+静止探索1段目10手だと24時間あたり2万〜2万5千局ペースみたいです。 全幅5手+静止探索にすると更に遅くなるんで、全幅3手が実用上の限界だと判断しました。 んで、選手権まで約2ヶ月あるんで、ずっと学習させっぱなしで何とか1…

PP絶対を実装&自己対局の条件を変更

まず、評価関数にPP絶対を実装しました。対局時はKPPのテーブルに値を足し込んで使うので、NPSの低下は無いはずです。 これで、ちょっとでも汎化能力が向上すれば嬉しいな、と。 それから、全幅1手+静止探索10手での学習では強くなってくれなかったので、全…

学習開始なのです

三駒関係の評価関数に学習に必要な関数を追加して、諸々のパラメータ調整もほぼ完了。 という訳で、今夜から本番の学習に着手します。 …てゆーか、これで強くなってくれないと詰む。選手権で大恥かくの確定。