GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2015-05-01から1ヶ月間の記事一覧

ありゃ

またTime Upしてる… けど、まだ一回だけか。しばらく様子見します。

思考時間制御を修正したバージョンを投入

floodgateで昨夜から今朝方にかけて、GA将がTime Outしまくっていました。 原因はコンパイル時の設定ミスで、floodgate用に思考時間のマージンを大きくするのを忘れていました。 対局者の方々にはご迷惑をお掛けしました。申し訳ありません。 で、修正したバ…

VS ssp(本将棋モード)

新バージョンのSR-PGLeafでゼロから学習し直したパラメータで、枝刈り全部あり・並列探索で対局させたもの。 結果は262-0-38で勝率87.3%。95%信頼区間は83.0〜90.9。まぁまぁですね。 前は90%前後まで行ってましたが、まぁそれはパラメータファイルを取り…

探索ルーチンの実装開始

前のルーチンは改装・改築を積み重ねてゴチャゴチャし過ぎなんで、思い切って書き直す事にしました。 基本的なアルゴリズムは変えないつもりなので、明日には完成するといいなぁ。

詰将棋ルーチンの話

ネタが無いんで、選手権時にチラホラ話していた詰将棋ルーチンの話です。 ザックリ言うと「ABC探索ベースで指し手を王手と応手に限定して、Singular Marginを無限大に設定したルーチン」なんですが、詳しく書いてみます。 まず、探索打ち切りはルートノード…

SR-PGLeafで実験中

つー訳で、酒呑んで寝る。明日の朝には結果出てるだろうし。

一旦元に戻す

合議用SR-PGLeafの実験中だったんですが、一度素のSR-PGLeafに戻してちゃんと学習するかテストしてみる事にしました。 んで、ログの出力周りでちょっと足りてない部分があるので、その辺を修正中。

棋譜の力は偉大だった

試しに三目並べで神様の棋譜*1をベースに学習させたら、100局であっさり収束*2しましたよ。 自己対局での学習は時間がかかるので、棋譜ありでの学習はやっぱり優秀ですね。 *1:双方最善を尽くした際の棋譜 *2:完全読みプレイヤーと引き分けれる様になった

合議用SR-PGLeafを実装中

…やばい、全然期待通りの動作になっていない。 これは、第25回選手権バージョンを越えるのは難しいのか!?

やっぱサイバーフォーミュラはイイ!!

新世紀GPXサイバーフォーミュラSIN ― オリジナル・サウンドトラック Vol.2 LOVEアーティスト: ビデオ・サントラ,影山ヒロノブ,LAZY,椎名可憐,根津洋子,牧穂エミ,佐橋俊彦,須藤賢一出版社/メーカー: トライエム発売日: 2000/09/21メディア: CD クリック: 33回…

VS ssp(5五将棋モード)

Windows Updateとかで中断・再開しつつ約2千5百万局経過後のパラメータ。 学習ルーチンは合議用SR-PGLeafで8クライアント。 んで、勝敗。現在21-0-3で勝率87.5%。 …うん、分かってる。明日起きると勝率7割とかになってるって。

パラメータ更新部分を修正

GPS将棋チームがボナンザメソッド用に提案したらしい、1回PVを求めた後に50回程度パラメータ更新を行うロジックを、GA将!!!!!!!!!の合議用SR-PGLeafに実装。 現在三目並べでテスト中ですが、とりあえず収束する*1様にはなりました。 このまま一晩走らせて、…

↑で書いた対局速度の続報

2千万局/日は瞬間最大風速で、現在1千5百万前後に落ち着きました。 まぁでも、1週間で1億局に届きそうですし、もちっと待ってみようかな。

うん、やっぱり思考の転換が必要かも

http://d.hatena.ne.jp/Gasyou/20150510/1431217464 で書いた「複数評価関数での合議」ですが、評価項目の有効・無効の設定方法は一考の余地あり、って感じです。 一昨日は単純に「評価項目の重いやつを上から4つ」選んで、それらを切り替えて複数評価関数を…

囲いの駒の評価をリトライ

第25回選手権バージョンのGA将!!!!!!!!の弱点の一つは「ちゃんと囲えない」事なので、そこをなんとかしようかと。 んで、まず囲いの駒の認識方法は以前書いたものでそこそこの精度が出そうなので、それを流用。 次に、認識した「囲い」の評価方法。以前は駒…

ちょwおまwwww

8クライアントのバージョンを学習用マシンに投入完了。 んで、NPSが600k→800kにアップし、24時間あたりの対局数は1千万→2千万に向上。PVの検証ルーチンを外した効果ですかね。 とりあえず、日曜夜辺りに1億局突破しそうなんで、まずはそこまで辛抱強く待って…

二駒絶対を外すと弱くなる

らしいので、16クライアントでの合議を一旦8クライアントに変更してみます。(二駒絶対は全クライアントで有効で、それ以外の3項目の有効・無効で8クライアント作る。) 大雑把にテストして、現在はアサーション有効でテストラン中。 1000局経過してパラメー…

あれ?

12万局ほどテキトーに学習したパラメータで、試しにssp(5五将棋モード)と連続対局。 現在12-0-5で勝ち越してます。 sspってこんなに弱かったっけ?

学習時専用の探索ルーチンを実装

αβ探索がバグってる疑惑があるんで、全幅1手+静止探索に限定した探索ルーチンを実装。現在アサーション有効にしてテスト中。 …暇なんで、も一回日向ぼっこしてきます。

コードネーム「India」開発開始

Ver.9だからNATOフォネティックコードの9番目っていう安直な名前ですが、「India」というソリューション名でGA将!!!!!!!!!の開発を開始。 とりあえず、今日中には合議用SR-PGLeafで三目並べの学習が動く様にしたいですね。 つっても、やる事はVer.8から各種…

CSA研究賞を頂きました

遅くなって申し訳ありませんが、選手権時の話。 芝浦将棋Jr.の五十嵐治一先生、ひまわりの山本一将さんと共同で、CSA研究賞を頂きました。 強化学習の一手法である方策勾配法に関する一連の研究に対して、「コンピュータ将棋をさらに強くできる可能性を示し…

ssp(5五将棋モード)と連続対局中

「先手頑張れ、先手頑張れ!! あーーーーーーーーーっ、負けた _| ̄|○」って考えてたら、GA将!!!!!!!!!は後手だった。 …ありますよね、こういう事。

複数評価関数での合議の為の学習

まず、従来の*1合議では、単一の評価関数&パラメータから、評価値に適当な乱数を足して複数の合議クライアントを生成します。で、複数クライアントが個別に探索し、その結果から得票数が最高の手だったり評価値が最高の手だったりを選択します。 私が今から…

パラメータのセーブルーチン、バグってた

最後の一個の評価関数だけセーブしてなかったっすよ。 つー訳で、sspとの連続対局は保留。 あ、それから一個気になる現象があったので修正。 二駒相対・絶対の評価項目が無いと勝率ダウン・予測報酬の誤差アップでよろしくなさ気なので、二駒相対は常に有効…

バグってなかったかも

http://d.hatena.ne.jp/Gasyou/20150506/1430919549 の続きです。 どうも、「三目並べで後手だけ学習が上手くいかない」ではなく、「三目並べでは後手の方が学習が難しく、収束が遅い」だったみたいです。 んで、私は収束の大分前のログを見て「バグってる!…

相変わらずバグってる

選手権前(と言うか、移動のバスの中)からずっとなんですが、合議用SR-PGLeafがバグってます。 試しに三目並べで学習させると、先手は正常に学習してくれるんですが、後手がダメ。 先手・後手で符号反転している部分が怪しいと睨んでいましたが、ログを出し…

来年に向けてのタスク

完成形の目標はこんな感じ。 線形の評価関数 玉の固さをちゃんと評価出来る様にする 普通のαβ探索 第25回選手権バージョンをリファクタリングするだけで、それ以外は極力いじらない予定 16種類の評価関数による多数決合議 対局時は、シングルスレッド探索ル…

選手権の感想

そう言えばちゃんと書いていませんでしたが、GA将!!!!!!!!は二次予選で4勝5敗となり、最終順位は17位でした。 大きな問題は一次予選の無明6戦で千日手を打開しなかっただけで、それ以外はトラブル無く対局出来たのは幸いでした。 一次・二次計16局指せてむっ…

第25回世界コンピュータ将棋選手権

GA将!!!!!!!!の選手権は、昨日の二次予選で終わりました。 参加者・主催者およびご協力頂いた関係者の皆様、どうもありがとうございました。 観戦記は書くほどの棋力が無いので多分書きませんが、感想とか今後の事は後日ちゃんと書きます。 「とりあえず、GA…

選手権一次予選

http://www.computer-shogi.org/wcsc25/ 今日から選手権開幕です。 ひとまず今日の目標は予選突破。 厳しい戦いになるとは思いますが、頑張ります(GA将!!!!!!!!が)。