GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2012-01-01から1年間の記事一覧

色々やった結果

全幅1手で12万局学習したパラメータが最良という結果になりました _| ̄|○ 何でか分からないんですが、全幅1手のパラメータを引き継いで全幅2手で学習すると弱くなるんですよねぇ… この現象は大分前(数年前?)からあって、気になってパラメータのセーブ・…

えっ、なにこれ!?

ssp相手に11連勝しちゃってますよ。 …と思ったら、スクリーンショットをアップロードする間に一敗してます。11-0-1で91.7%の61.5〜99.8。 でもこれ、期待していいのか!? 対局結果が出る明日の朝が楽しみです。

あ、しまった…

5五将棋用の思考時間制御、どうしよう… 本将棋の方は、進行度と残り時間を元に思考時間を決めてるんですが、進行度計算には棋譜からの教師あり学習で作ったパラメータを使ってます。 んで、そのパラメータは5五将棋では使えない訳で… 今から5五将棋用に進行…

VS ssp(5五将棋モード)

まず、昨夜から今朝までの分(全幅1手で学習)は244-?-104で勝率70.1%。95%信頼区間は65.0〜74.9。 んで、今朝からさっきまでの分(全幅1手のパラメータを引き継いで全幅2手で学習)は374-?-169で勝率68.9%、95%信頼区間は64.8〜72.8。 磯部さん作の勝率…

アサーション外したら一気に強くなった

現在ssp相手に15-0-5。あ、書き忘れたけど5五将棋です。 んで、勝率75%キッカリになりました。キリが良いんで80%まで行ってくれると嬉しいなぁ… 学習は方策勾配法の派生アルゴリズム(今度GPWで発表するやつです)を使い、探索は全幅1手+静止探索(1段目6…

あんまり強くないですねw

…とか思ってたら、対局用exeをアサーション有効でコンパイルしてましたよ _| ̄|○ とりあえずアサーション外してリトライしてみます。

選手権まで残り半年を切ったわけですが

…この半年間、何の成果も出せてないです。 一応、論文書いたりその為のデータとったりで色々分かった事はあるんですが、問題点を修正してプログラムの強化に繋げるにはまだ至っていません。 まずいなぁ… 考慮時間残り半年あるけど、学習にかける時間を考える…

PiledriverコアのOptern 6300発表

http://pc.watch.impress.co.jp/docs/news/20121105_570956.html 最上位の6386 SEはベース2.8GHz、ターボ時最高3.5GHzだそうです。$1,352だそうなので、日本円で12万台半ばだと手が出そうな気がします。 合議が上手く行ったらこれで一台組みたいけど、どうな…

最後の悪あがき

GPW杯に向けて、最後の悪あがきをしています。 やってる事は単純で、最小分散ベースライン*1をやめて、平均報酬をベースラインとする、という事。 幾つか実験してみた限りだと、最小分散ベースラインより大幅に劣る事は無さそうですし、場合によっては良くな…

sakurapyonさんに反応されてたんでレス

逆に、悪い手の情報を共有するのはどうだろう? 末端で自玉が詰む局面を共有するとか。 https://twitter.com/sakurapyon3/status/263928819000414208 実はそっちはだいぶ前に思い付いてて、ブログには書きました。 → http://d.hatena.ne.jp/Gasyou/20100417/1…

昨夜の続き

http://d.hatena.ne.jp/Gasyou/20121030/1351612797 酔いが覚めてみると一つ見落としていたのに気付きました。合議クライアントの多様性が失われる危険性があります。 まず、合議で強くする為に必要なのは、「各クライアントの正解率を高める」事では無く「…

気が付けばGPWまで後9日

楽しみなのは良いんですが、ポスター発表の準備がガガガ・・・・・ 原案は出来てるんで細々修正して、後は当日用の準備して。 あ、それからちゃんとした服買わないと。今着てるのはかなりボロいんで、それはさすがに・・・ですし。 ンでもってGPW杯は本将棋…

合議における内部局面の最善手共有によるReduction抑制

酔った勢いで書いてるんで色々読み抜けとか考慮漏れとかありそうですが、思い付いたんでとりあえず書いてみます。 まず、現在のGA将の思考ルーチンは全幅探索*1+LMRの部分と、全幅末端での2段階静止探索になっています。 で、LMRで重要な手を短縮してしまう…

稲庭将棋さんが参戦してる

http://wdoor.c.u-tokyo.ac.jp/shogi/view/2012/10/28/wdoor+floodgate-900-0+inaniwa+Gasyou_Atom-D510_1c2t+20121028190005.csa さっきGasyouとも当たりましたが、ひどい負け方をしました。 500手位まで稲庭囲いを崩せなくて、何とか崩せたと思ったら残り…

自分のバックアップ手法について語ってみる

上に関連して、自分がどうバックアップしているかをちょいと語ってみます。参考になれば幸いです。 まず、「可能な限り自動化する」「本当に重要なデータは二重にバックアップする」を基本方針としています。 で、バックアップ先は下記の二箇所です。 デスク…

HDD逝ったあああああああああああああああああ!!!!!!!!!!!!!!

まぁ、バックアップ用HDDなんで、重要なデータの損失は無いんですが。 んで、HDD死亡の現場に立ち会ったのは初めてなんで、記念にこれまでの経過を書いてみます。死亡したのはUSB接続の外付HDDです。 9月半ば頃 日次のバックアップ中にバックアップソフトが…

Visual C++ 2008でのOpenMPとPGO

両立出来ないんだ… 今日コンパイルエラーが出て初めて知った。 まぁ、PGOの性能アップはせいぜい10数%だったからいい…訳無いよなぁ。CPUを2ランク位上のと交換したほどの性能差あるし。 これは、並列化のコードを自前でゴリゴリ書くしか無い?

FX-8350発表&発売

http://pc.watch.impress.co.jp/docs/news/20121023_567751.html http://pc.watch.impress.co.jp/docs/topic/feature/20121023_567804.html 性能的にはライバルのCore i5-3570Kとは勝ったり負けたりで、マルチスレッド性能なら3570Kを超えてる感じはしますね…

FX-8350は¥18,000前後?

http://www.gdm.or.jp/voices/2012/1020/8448 「某ショップ店員談」となっているのでそこそこ正確な情報だとは思いますが、これなら妥当な金額設定ではないかと。 私はi7 3770K買った直後なんで手を出しませんが、マルチスレッドの学習ルーチンを走らせるな…

バグに気がついた

入玉宣言絡みで、いつかは起こりそうなバグがあったんで、大会までには対策しないと。 バグは二つあって ルートノードでどの手を指しても相手の入玉勝ちになる場合、ムーブオーダリングで最初に来た手を指す。 ある程度深い所で相手の入玉勝ちと自玉が詰んで…

サーバ向けAtomは8コアへ

http://blog.livedoor.jp/amd646464/archives/52310726.html Avotonというコードネームがついていますが、クロックは最高2.7GHz・TDP 5〜20Wというスペックが出ています。 8コア・2.4GHz・TDP 20Wならかなり魅力的なんですが、多分一般向けには売らないでし…

Opteron 6300シリーズはあまりクロックが伸びないらしい

http://northwood.blog60.fc2.com/blog-entry-6292.html Piledriver系コアの新Opteronですが、最上位の6386SEが2.8GHzで16コアらしいです。IPCの向上も数%らしいですし、Xeonのハイエンドモデルに追い付くのは厳しそうな感じですね。 後はコストパフォーマ…

色々あった結果

悪魔に魂を売る事にしました。ではなくて、教師有り学習に手を出します。 別に強化学習を諦めた訳では無くて、教師有りで初期学習→強化学習でさらに棋力アップってプランです。 棋譜は入手済みで読み込み部分も完成してるんで、後は学習部分をガリガリ書くだ…

GPW2012で発表します

http://sig-gi.tanaka.ecc.u-tokyo.ac.jp/gpw/2012/schedule.html 何とか機会を貰えたので、GPWで今やっているコンピュータ将棋の学習法についてポスターセッションで発表する予定です。 ・P-2 方策勾配法による静的局面評価関数の強化学習についての一考察 …

サブゴール自動生成を実装完了

http://d.hatena.ne.jp/Gasyou/20121002/1349182187 で書いたやつです。 i手目の手のサブ報酬は、「勝敗に応じた報酬 * 0.99^i手目から終局までの手数」を目標値として設定する様にしました。言ってみればモンテカルロ法みたいにサブゴールの報酬を決定(学…

Deep Blueには致命的なバグがあった…らしい

http://wired.jp/2012/10/03/deep-blue-computer-bug/ どうも、探索中にエラーが発生するとランダムに指し手を選択する様になっていたらしいですね。 で、本番でエラーが出てランダムに手を選んだんだけど、それがたまたま「あれは信じられないくらい洗練さ…

面白そうな論文見つけた

http://aiwww.main.ist.hokudai.ac.jp/contents/research/activities/thesis/M_23_kimura.pdf 強化学習において、いきなりゴール(将棋の場合だと勝敗)に辿り着くのは難しいので、途中にサブゴールを設定し、そこに到達すると報酬を与えるという事は結構さ…

なんぞこれ

上で書いた2番目の学習で得たパラメータですが、試しに稲庭将棋さんとスパーリングしてたら変な事になってます。 なんなんでしょうね、これ? 「浮き無敵囲い?」それとも「リッチブリッジもどき?」 金銀が前進するのは予想の範囲内ですが、まさか王将まで…

上手く行ってるのかいないのか

本将棋で非MDP環境の報酬設定にして、ちゃんと学習してくれるのか試してみました。 まず最初は「勝っても負けても、駒の前進ボーナス(1回あたり+1)を与える」&「探索無し」って条件で学習。勝ち負けに応じた報酬を与えていないので、だらだら対局を長引か…

う〜ん、ちょっと欲しいかも

http://pc.watch.impress.co.jp/docs/news/20120925_562034.html 新発売のThinkPad Edge E135。重量的には今持ってるX220と同程度だけど、ディスプレイが11.6インチになって少し小さくなってます。 個人的には、AMDのE2-1800プロセッサが載ってるってのがキ…