GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2012-04-01から1ヶ月間の記事一覧

グローバル詰みテーブル修正前の勝率

対sspで一手一秒、双方Ponder無し、GA将!!!!!は合議クライアント4スレッド+詰将棋ルーチン1スレッド。マシンはCore 2 Duo P8600(2コア・2.4GHz)。 んで、103-4-390で勝率20.9%、95%信頼区間は17.4〜24.8。 昨日書いた修正でちょっとでも勝率上がってく…

グローバル詰みテーブルのアクセスタイミングを変更

元々はこんな感じで、内部ノードの探索開始時にグローバル詰みテーブルのデータを読み込んでました。 double Searcher::searchNegaMax( Position *const position, ... ) { // グローバル詰みテーブル読み込み const int mateInfo = globalMateTable->get( p…

VS Lesserkai 20戦

報酬へのボーナスの量と勝敗の関係は下記の通りとなりました。 駒の前進ボーナス 囲いの駒ボーナス 勝敗 0.01 0.02 4-0-1 0.03 0.02 17-0-3 0.09 0.02 20-0-0 0.01 0.04 20-0-0 0.03 0.04 18-0-2 0.09 0.04 19-0-1 20連勝した2つのパラメータは、ボーナスの…

昨夜からの学習

王将付近に桂馬・香車・歩がいた時も金銀よりやや少なめに報酬を与える様に変更しました。 で、パラメータ6種類で約3万5千局ほど学習させたやつをLesserkaiと連続対局中。学習率は0.01に設定しました。 まだ収束していない可能性はありますが、とりあえずざ…

ちょっとは囲う?

無敵囲いモドキですがw 一応、報酬の与え方を変更したのが効いてるのかな?

R1426になりました

まだ先は長い? せめて、gps500には追いつきたいなぁ…

復帰しました

http://wdoor.c.u-tokyo.ac.jp/shogi/tools/view/show-player.cgi?event=LATEST&filter=floodgate&show_self_play=1&user=Gasyou_Atom-D510_2c4t%2Bedd1a7ba7a36303c69262a79f81d0a78 まぁでも、R1400行ったら良い方だろうなぁ…

ぼちぼち選手権の準備開始

今やってる学習が失敗した場合に備えて、選手権用のプログラムを準備開始しました。構成としては下記の様になる予定です。 旧バージョンで学習したパラメータファイル(第20回の選手権時と同じもの) 古い評価関数(上記パラメータファイルを使用可能な為) …

VS ssp(本将棋モード)

昨日のパラメータそのままで、sspと連続対局。 んで、結果。学習率0.03のやつは20-0-134で勝率13%。学習率0.01だと14-1-102で勝率12%。まだまだ弱いですね。

VS Lesserkai

勝敗はこんな感じ。1,2敗したらそこで打ち切ってます。 学習率 勝敗 勝率 0.3 16-0-2 88.9 0.1 11-0-1 91.7 0.03 20-0-0 100 0.01 20-0-0 100 0.003 4-0-1 80.0 0.001 1-0-1 50.0 学習率0.003と0.001に関しては、対局数が少ないので収束していないって可能性…

ThinkPad X230はアイソレーションキーボードらしい

http://blog.livedoor.jp/amd646464-note/archives/5968973.html 個人的にはX220みたいな、キーの間に隙間が無いタイプのが好みなんで、悩みますねぇ。 早めにX220買うか、X230登場後に在庫処分になったX220を狙うか、あるいはX121eとかE220sもしくはそれら…

Lesserkaiと連続対戦中

昨夜から約21時間、4万局前後学習したパラメータ×6種類です。 今のところ調子良く連勝してるんで、この中からベストのものを選んで、次はsspと連続対戦させる予定です。

クラスタ化でどの程度レーティング伸びるか調べてみた

本将棋の対sspで、双方1手1秒の場合とGA将!!!!!だけ10倍の時間考える場合とで、勝率がどの程度違うか調べてみました。 んで、結果。双方1秒だと8-2-48で勝率14.3%、95%信頼区間が6.4〜26.2。10倍考えると35-3-29でそれぞれ54.7%、41.7〜67.2です。 幅はあ…

選手権の宿、予約変更

http://vivio.blog.shinobi.jp/Entry/369/ かず@なのはさんと同じ三恵シティホテル八王子にしました。3泊で12,340円なので、会場までの交通費(片道270円)を考慮しても安いです。 ただ、禁煙ルームしかなかったんで、それはちと辛いですが。まぁ、宿では寝…

報酬のボーナスを1種類追加

終局時に以下の条件を全て満たす駒があれば、1枚あたり0.03*1報酬を追加する事にしました。 金か銀 王将と同じ手番の駒 王将の24近傍にいる 一度取って、その後打った駒では無い(初期局面からずっと盤上にいた駒である) 要するに「囲う気があるならちょっ…

学習率いろいろ

学習率0.3,0.1,0.03…0.001と6通りで学習させたやつを、対Lesserkaiで各40戦させてみました。 で、0.03が40連勝して一番強かったから今度はsspと対局。…6連敗 _| ̄|○ コレじゃァ選手権には出せませんね。困った。

報酬の式を修正

今までは「金銀桂馬が前進したらボーナス+0.01、後退したらボーナス-0.01」だったんですが、これに「今まで一度も敵に取られていない」という条件を追加しました。 何故かと言うと、今までの報酬計算方法だと「敵の金銀桂馬を取る→自陣に打つ→前進させる」と…

備忘録

今からssp(本将棋モード)と対局させるやつ。学習時間は24時間で、11万局学習後。あと、本番の学習前にランダムに初期化した局面からほんのり入玉好きに学習させてます。

VS Lesserkai

昨夜からの一晩分。516-16-46で勝率91.8%、95%信頼区間は89.2〜93.9。 「駒割だけのパラメータより多少マシ」って程度の強さですが、とりあえず最新のパラメータに差し替えてsspとやらせてみます。

今30インチディスプレイを買うのは時期が悪い。もう少し待て、か?

http://pc.watch.impress.co.jp/docs/news/20120413_526257.html 32インチで4K2K(3,840ドット×2,160ドット)のパネルをシャープが生産開始したそうです。 ただ、個人的には今の30インチ(2,560×1,600)でも画面サイズ・解像度的に不満が無いのも事実です。…

選手権に間に合うのか?

入玉狙いの学習をやってますが、先手のみ学習・後手ランダム指しでも入玉率が60%をなかなか超えれません。 評価項目の追加やらパラメータの調整やらやってるんですが、まだ先は長そうです。この分だと、選手権までに学習成功ってのも怪しいですね。 うーん…

もういっその事、探索不要じゃね?

という訳で、入玉の学習には探索不要なんじゃないかと考えて、そういう設定で学習させてみます。 今の所、入玉率がいきなり4%になってウハウハですw 対局数も結構稼げそうですし、しばらくこの設定で行ってみようかな。

全部は無理だった

やった事。 既存の評価項目を無効にする(入玉狙いに関係無さそうなのは外す) 駒割と筋・段個別の絶対位置評価だけ残した 評価項目追加 王将が敵陣にいるかどうか 敵陣にいる駒の枚数 敵陣及び持ち駒の点数 学習率を2ケタ下げて1e-5に変更 手生成の変更 静…

今日やりたい事

既存の評価項目を無効にする(入玉狙いに関係無さそうなのは外す) 評価項目追加 王将の敵陣までの経路の有無・距離 王将が敵陣にいるかどうか 敵陣にいる駒の枚数 敵陣及び持ち駒の点数 レポート追加 王将が敵陣にいる割合 王将の平均位置(段) 敵陣にいる…

報酬の計算式をいじる

一晩学習させたんですが、入玉率が低いままなので失敗でした。 で、昨日書いた報酬の設定から、更に終局時に敵陣にいる駒・持ち駒の数に応じてボーナスを加算する様にしてみました。 「入玉出来なかったけど惜しかったね」と教えてやれば、次からはもっと入…

入玉宣言の実装完了

今日やった事。 入玉判定ルーチンの実装 「入玉宣言」を表す手を作り、宣言した側の勝ちと判定(ルートノード・探索の内部ノード両方で) 入玉宣言勝ち試験図の局面でテスト 報酬の与え方を変更(入玉勝ちなら+100、入玉負けなら-100、飛・角・香以外の駒が…

入玉指向の将棋プログラムの作成

https://ipsj.ixsq.nii.ac.jp/ej/?action=pages_view_main&active_action=repository_view_main_item_detail&item_id=78250&item_no=1&page_id=13&block_id=8 去年のGPWの論文ですが、まだ読んでなかったので早速覗いてみました。 「入玉ステップ数」という…

うーん…

昨夜からの対sspの連続対戦は、23-4-473で勝率4.6%。問題外に弱いですね。 こうなりゃ、ネタに走って入玉を目指すコンピュータ将棋にしてみますか。 一応「棋譜からの学習が困難な状況下でも、自己対戦での強化学習は上手く行きました」っていう言い訳も出…

復帰しました

21:30の回から復帰。勝手に参戦させている稲庭将棋さんも同じタイミングで復帰しました。 simk_10000_prさんとsakurapyon-39さんに二連敗 _| ̄|○ もうちょっと頑張らないと。

合議の票数を基準とした思考時間制御

アイデアとして書くほどのものじゃないんですが、とりあえず思い付いたので書いてみます。 今のGA将!!!!!は、合議の最多得票数の手に応じて以下の様に思考時間制御をしています。 まず、進行度と経過手数を元に基本思考時間を設定。ただし、基本思考時間は最…