GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2013-01-01から1年間の記事一覧

年末のご挨拶

えー、そういう訳で今年の開発は無事、キリの良い所で終える事が出来ました。 今年一年間お世話になった皆様へ感謝します。 来年も引き続きGA将の開発をしていきますので、お時間ありましたら、たまにでいいのでこのブログを覗きに来て貰えると嬉しいです。

ザクッと実装、サクッとテスト

んで、とりあえず学習用マシンにリリースモードで投入し、並行して開発用マシンではアサーション有効でテスト中。 とりあえず明日朝までは無事に走ってて欲しいなぁ。

お、今年中に終わるかも

駒の絶対位置評価 → 差分計算含めて実装完了 二駒の相対位置関係 → 差分計算以外実装完了、現在テスト中 旧バージョンのルーチンを流用したんで、意外と早く進んでます。 この分だと、年越し蕎麦食べるまでには二駒相対の差分計算が完了する、かも。

例によって大晦日も開発中

とりあえずGPW 2012の結果*1を超えるのを目指して、色々やってます。 んで、GPW 2012の旧バージョンは評価関数が先後対称でしたが、現行バージョンは先後非対称になっています。 具体的に言うと、例えば駒の位置評価で、旧は8八の先手角の価値と2二の後手…

次期学習用マシンの下見

に大須まで行ってきました。 んで、CPU・マザー・メモリだけ交換して後は現在のマシンのを流用する前提で、トータル14万前後ですね。 内訳↓ CPU:Core i7 4930K(6コア・3.4GHz)¥61,980 M/B:ASUS X79 DELUXE ¥43,980 メモリ:DDR3 8GB*4 ¥41,480 メモリは…

選手権の宿を確保

http://www.grandpark-ex.jp/kisarazu/index.html 結局、以前と同じくグランパークホテルエクセル木更津にしました。 4泊(5月2日チェックイン・5月6日チェックアウト)で2万6千円弱なので、多分この地域では最安値…だと思います。 以前に利用した時とはホテ…

久々にブルースクリーンを見た

開発用マシンでGA将!!!!!!!の学習をさせつつVTuneでプロファイルとりつつ音楽再生しながらポータブルオーディオプレーヤーに音楽転送してたらいきなり。 なんだろう、要因が多すぎてどれが原因なんだか… それと、久々にHDDからWindows起動したら遅すぎて笑っ…

細々と改良中

今日はちょっとまとまった時間が取れたので、探索がらみの改良を。 同一局面で手番だけ違うケース(単純な1手損) 盤面は同一で一方のプレイヤーの持ち駒が増えているケース(持ち駒優劣関係) 上記2点の認識、回避ルーチンを実装しました。 んで、そろそろ…

第24回世界コンピュータ将棋選手権の参加募集中みたいです

http://www.computer-shogi.org/wcsc24/ とりあえずソフト名「GA将!!!!!!!」でエントリーしました。 …さて、後129日で学習を成功させないと、前回大会の二の舞いですね。 間に合うかなぁ、どうかなぁ…

PVのデータ構造を修正中

今までは無駄にメモリを喰う構造だったのを、必要な時に必要な分だけ確保する様に修正。 パフォーマンス的には多少劣化するかもしれませんが、将来的に色々拡張する事を考慮して、今のうちにやっとこうかと。 んで、PVを弄ると探索周りも多少修正が必要にな…

枝刈りのデバッグ中

一切枝刈り無しの状態から、LMRとNull Move Pruningを有効にすると棋譜との一致率がどう変化するか調べてみました。 評価関数は上と同じで、ほぼ駒割のみです。 んで、結果↓。 LMR無し LMRあり Null Move無し 29.3% 32.0% Null Move有り 30.4% 28.8% え…

とりあえず探索テストの結果

駒割のみちゃんとした値を設定した結果、棋譜1局との一致率は28.2%でした。 という訳で、学習して一致率が上がるかを試してみます。 …と言っても、少なくとも明日までは学習の時間がかかるので、その間は別の所にバグが無いかチェックしてみます。

↑の原因

探索テスト用ルーチンで評価値の差分計算がちゃんと出来ていないのが原因でした。 んで、そこを修正したら300kNPS前後でイテレーションがちゃんと回る様になりました。 それから、デバッグ中にUSIモードでαβが遅くなるバグも発見したんで、そこも修正。 さて…

探索のデバッグ中

とりあえず静止探索二段目のルーチンを、Inside KFEndのコード通りに修正。今までは王手の場合は全ての合法手を生成していましたが、それだと無駄に遅くなるらしいのでやめにしました。 んで、ザックリと探索のテスト用ルーチンを走らせてみました。 …何かお…

年末大掃除の結果

実行ステップ:17,581 → 17,241 コメント:5,239 → 5,148 上記合計:22,820 → 22,389 えー、500ステップ弱しか減ってません。 コード減らすのは結構難しいですね (´・ω・`)

年末大掃除

Twitterで平岡さんにアドバイス貰ったんで、Gitの本格運用開始&ソースコードの整理をしてみます。 んで、とりあえず現状のステップ数。 実行ステップ:17,581 コメント:5,239 上記合計:22,820 不要なコードをコメントで消してるのもあるんで、その辺も含…

目が痛い

眼精疲労ってやつかな? よく分かんないけど。 まぁ、今日はゆっくり本でも読みつつ寝る事にします。基礎からやり直すのは明日からですね。

一旦将棋からは離れます

5五将棋の学習で、評価関数は駒割Onlyで、静止探索を無くしたり全幅探索も無くしたりしましたが、それでもちゃんと学習してくません。 という訳で、方策勾配法の理解が根本的に間違ってる疑惑が出て来ました。 てな事で、一旦多腕バンディット問題とか迷路脱…

ブースティングの本を購入

ブースティング - 学習アルゴリズムの設計技法 (知能情報科学シリーズ)作者: 金森敬文,畑埜晃平,渡辺治,小川英光出版社/メーカー: 森北出版株式会社発売日: 2006/08/25メディア: 単行本購入: 1人 クリック: 24回この商品を含むブログ (9件) を見る 当面ブー…

PGLeafでの学習状況

5五将棋で駒割の歩の値は1に固定して、他のパラメータ(駒割・位置評価etc)を学習させてますが、駒の価値が発散しています。 歩が1なのに飛車が50とか龍が100とか、明らかに異常です。 …何でこんなんで三目並べ・リバーシは学習出来たんだろう?

電王戦キャンセルしました

今更ですが、電王戦への参加はキャンセルしました。 PGLeaf(方策勾配法)での学習ルーチンを書き直した際にどっかエンバグしてるらしく、無茶苦茶弱いんで大会に出るにはちょっと…という感じでしたので。 選手権までには何とか学習を成功させたいけど、出来…

デバッグ中

探索か評価関数のどっちか(あるいは両方)が怪しいので、その辺をテストしてます。 んで、評価関数は差分計算有りの評価項目だけにしてみました。 差分計算有りの項目は、差分計算値と逐次計算値を突き合わせて一致するかテストするルーチンがあるので、多…

明らかにおかしーし

http://d.hatena.ne.jp/Gasyou/20131016/1381923477 前はほぼ同じ設定で対sspの勝率が70%行ってたんで、どっかエンバグしてますね。 探索とか評価関数とか、そう言う将棋固有の部分が怪しいですが、どっから手を付けたもんかなぁ…

vs ssp(5五将棋モード)

今朝から一晩分。84万局自己対戦後のパラメータで。学習時の探索深さは全幅1手+静止探索。 んで、結果。93-?-719で勝率11.5%、95%信頼区間は9.3〜13.8。 とりあえずこれをベースラインとして、後は探索を深くしてどの程度強くなるかですね。

駒割の価値の分解

今のGA将のロジックだと、駒割は下記の様になっています。 歩〜飛車はその駒の価値単独のパラメータがある。 と歩〜成銀は「金とと金(OR 成香 OR 成桂 OR 成銀)の差分」をパラメータとして持ち、これに金の価値を足したのが成駒の価値。 馬・龍は「角(飛…

三連休の成果

結局何も進展無し。かなり凹んでます。 んで、一度基本に戻る意味で、PGLeafでの学習を突き詰めていこうかと検討中。 電王トーナメントには間に合わないでしょうが、来年の選手権をターゲットにじっくりやる事にしました。

上で書いた改良案

前提として「評価値をシグモイド関数に通すと勝率になる」って条件が必要だったんですが、ざっとデータとった限りだと条件満たせそう。 つー事で、早速改良します。

自然TD学習は諦めた

私には使いこなせないらしいという結論になりました。 んで、PGLeafの改良で1つプランがあるので、そっちを試してみます。三連休中には完成するかな? …電王戦まであと3週間程ですが、無茶苦茶ピンチですね。

うーん…

自然TD学習ですが、相変わらず難航しています。 一応、「TD誤差の推定が上手く出来ていない」という問題点は分かっているんですが、一向に対策が思い付きません。 論文は穴が空くほど読み込んだので、アルゴリズム自体は間違ってないとは思うのですが… 「方…

電王トーナメントの出場ソフト

http://ex.nicovideo.jp/denou/tournament/soft.html 発表されていましたね。 これは、4年前のパラメータファイルを持ち出しても手も足も出ないでしょうから、今やってる学習を成功させて一発逆転を狙うしか無さそうです。 まぁ、方針決まったのでスッキリし…