GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2013-03-01から1ヶ月間の記事一覧

今すぐやるべき事、後でやる事、やらない事

基本方針は「強化学習による評価関数の精度向上を最優先」で。 んで、合議や並列探索はとりあえず無視。シングルスレッド動作で強くするのを目標とします。 選手権までのTODO 学習ルーチン(PGLeaf・ソフトマックス方策)のデバッグ エージェントと方策の連…

電王戦第2局

一成さん&Ponanzaさんおめでとうございます。 朝から一時中断つつ見てましたが、最後までハラハラしました。 これで勝ち星は1-1ですので、次の見所はどちらが勝ち越すかですね。 対局を見てて気合入ったんで、そろそろGA将!!!!!!の開発を再開します。

上手く行かない

本将棋で方策勾配法(PGLeaf)の学習をしてるんですが、なかなか強くなりません。 どうも、駒の価値が他の位置評価に比べて小さくなっているみたいで、正則化を有効にしたり色々やってみても一向に改善の気配無し。 このままだと、来週のオープン戦はおろか選…

VS Lesserkai(本将棋モード)

結局18-0-2になりました。 Lesserkaiに20連勝出来る位にならないとsspと対局させても手も足も出ないんで、ssp相手に連続対局させるのは時期尚早ですね。

VS Lesserkai(本将棋モード)

圧倒的な終盤力。そして、圧倒的(にダメ)な序盤。 現在Lesserkaとの連続対局中(本将棋)なんですが、相変わらず序盤が変です。 ただ、それでも5連勝(しかも5戦全部逆転勝ち)なんで、何なんでしょうね、この棋風は。 この調子だと、sspと互角になるには…

VS spp(5五将棋モード)

本将棋用に評価項目に王将の移動可能範囲・駒の自由度を実装したバージョン。他は、駒の位置関係関連を全部実装。 んで、学習ルーチンとしてこの前からやってる2段階学習を使用したものです。 結果は351-0-1177で勝率66.5%、95%信頼区間は62.3〜70.5。 少…

アピール文書(第二案)

GA将!!!!!!とは 私(森岡)がフルスクラッチで作成したコンピュータ将棋ソフトです。 読み方は"がしょう"です。 Ver.1ではGA(遺伝的アルゴリズム)を使っていたので、この様な名前になりました。 名前の最後の"!"の数はメジャーバージョンです。現在はVer.6…

2フェーズ学習の実装完了

http://d.hatena.ne.jp/Gasyou/20130323/1364035781 昨日書いた学習ルーチンの修正ですが、とりあえず完了。と言っても、学習エージェントと評価関数を少しいじっただけですが。 んで、5五将棋は進行度計算ルーチンが動かない(パラメータを学習させてない)…

進行度を利用した評価関数のパラメータ学習に関する、新しいアイデア

芝浦将棋Jr.の五十嵐先生と相談中で、ひょっとしたら論文ネタになるかもしれないので、ザクっと書いてみます。 まず、自己対戦の結果から強化学習(TDLeaf(λ)やPGLeaf)で学習する際に一番問題になるのは、序盤〜中盤の学習が上手く行かない事です。 これは…

Ivy BridgeなXeonのスケジュール

http://northwood.blog60.fc2.com/blog-entry-6647.html 個人的にはIvy Bridge-EP(多分、製品名はXeon E5-2600 v2)が気になるんですが、これは今年第3四半期予定だとか。 夏のボーナスと時期が重なれば、久しぶりにデュアルCPUマシンが組めそうです。 コア…

よし

明日からは合議前提で学習するルーチンを実装しよう。 とりあえず、現状のPGLeafのルーチンを拡張する方向でやってみます。 合議の方式としては、8種類の評価関数ルーチン・パラメータでの多数決合議の方向で。楽観合議は多分上手く動かないし。 えーと、後…

あれ、オープン戦の日時変更?

http://www.computer-shogi.org/ 2013/04/07になってますね。 後2週間半かぁ。学習、間に合うかな?

アピール文書(案)

GA将!!!!!!とは 私(森岡)がフルスクラッチで作成したコンピュータ将棋ソフトです。 名前の最後の"!"の数はメジャーバージョンです。現在はVer.6なので6個です。 元々は"!"を増やすつもりはなかったのですが、2回目の選手権参加の際になんとなく増やして以…

思考時間を変えてみた

No. 駒割 持ち駒の組み合わせ 筋・段個別の駒の絶対位置 駒の絶対位置 二駒相対位置関係 二駒絶対位置関係 三駒の相対位置関係 探索ルーチン 勝率 95%信頼区間 対局数 学習時の探索深さ 備考 B1 ○ ○ ○ ○ ○ - - 200Kノードで打ち切り・詰将棋ルーチン無し 62…

評価項目を追加

No. 駒割 持ち駒の組み合わせ 筋・段個別の駒の絶対位置 駒の絶対位置 二駒相対位置関係 二駒絶対位置関係 三駒の相対位置関係 探索ルーチン 勝率 95%信頼区間 対局数 学習時の探索深さ 備考 B1 ○ ○ ○ ○ ○ - - 200Kノードで打ち切り・詰将棋ルーチン無し 62…

自己対戦学習にUCTを追加したバージョン

No. 駒割 持ち駒の組み合わせ 筋・段個別の駒の絶対位置 駒の絶対位置 二駒相対位置関係 二駒絶対位置関係 三駒の相対位置関係 探索ルーチン 勝率 95%信頼区間 対局数 学習時の探索深さ 備考 B1 ○ ○ ○ ○ ○ - - 200Kノードで打ち切り・詰将棋ルーチン無し 62…

欲しい、けど絶対手が出ない。

http://www.gdm.or.jp/pressrelease/2013/0315/23598 Xeon Phiが8枚搭載可能な2Uラックマウントサーバ。仮に5100Pを8枚挿すと、60コア×4スレッド×8枚で1920スレッドの並列実行が可能。 まぁ、Xeon Phiは1枚で20万円オーバーなんで、システム全体だと軽く車が…

バグ修正&WIN32スレッド化

まずは上で書いたバグを修正。これは結構簡単です、原因さえ分かれば。 それから、OpenMPをやめてWIN32スレッドでマルチスレッド化。これで、マルチスレッド動作とPGOを両立可能になりました。 んで、学習用マシン*1だと対局速度が結構稼げる様になってきた…

バグ一個発見

昨日のリストの2番のやつ。 私のUCTの実装は、対局(プレイアウトに相当)をマルチスレッド化する為に、UCTの木をノード単位でロックしていました。 んで、そういう実装だとあるスレッドがUCTの木をLeafに向かって辿っている時に、同じく木を辿っている他の…

とりあえずバグリスト

UCTを実装した後に出たバグです。全部自己対戦での学習時の現象。 OpenMPの関数内かどっかで無限ループに入って抜け出せなくなる。 UCB値の計算で0除算エラー。 対局中にいきなり落ちる(アサーションでは無いらしい)。 …結構ありますね。 1はOpenMP使わず…

あう、バグってる

UCT部分で千日手になって、千日手判定を未実装だから無限ループに入ってバグってた。 とりあえず、千日手判定を実装しますか。