GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

学習経過

VS ssp(5五将棋モード)

No. 駒割 持ち駒の組み合わせ 筋・段個別の駒の絶対位置 駒の絶対位置 二駒相対位置関係 飛び利きを遮る駒 駒の自由度 王将の移動可能範囲 探索ルーチン 勝敗 95%信頼区間 0 ○ - - ○ - - - - 思考時間打ち切り 53.0(140-?-124) 46.8〜59.2 てか、駒割+位…

VS ssp(5五将棋モード)

評価項目は駒割+位置評価のみで10万局学習後のパラメータ。 現在18勝17敗なんで、多分互角程度の実力はあるみたいです。 NPSは600〜700Knps程度なんで、評価項目全部有りより3〜4倍速い程度です。 評価項目が少ないんで王将を攻めるのはまだ下手ですが、そ…

VS sspで勝率75%

学習の設定等は、5五将棋モードで方策勾配法(全幅2手+静止探索6手)、目標探査率は0.1〜0.3でランダムウォーク。 で、勝敗は312-?-104で勝率はピッタリ75.0%。95%信頼区間は70.5〜79.1。 前より確実に強くなっているとは言えないですが、多少上向いて来…

色々やった結果

全幅1手で12万局学習したパラメータが最良という結果になりました _| ̄|○ 何でか分からないんですが、全幅1手のパラメータを引き継いで全幅2手で学習すると弱くなるんですよねぇ… この現象は大分前(数年前?)からあって、気になってパラメータのセーブ・…

えっ、なにこれ!?

ssp相手に11連勝しちゃってますよ。 …と思ったら、スクリーンショットをアップロードする間に一敗してます。11-0-1で91.7%の61.5〜99.8。 でもこれ、期待していいのか!? 対局結果が出る明日の朝が楽しみです。

VS ssp(5五将棋モード)

まず、昨夜から今朝までの分(全幅1手で学習)は244-?-104で勝率70.1%。95%信頼区間は65.0〜74.9。 んで、今朝からさっきまでの分(全幅1手のパラメータを引き継いで全幅2手で学習)は374-?-169で勝率68.9%、95%信頼区間は64.8〜72.8。 磯部さん作の勝率…

アサーション外したら一気に強くなった

現在ssp相手に15-0-5。あ、書き忘れたけど5五将棋です。 んで、勝率75%キッカリになりました。キリが良いんで80%まで行ってくれると嬉しいなぁ… 学習は方策勾配法の派生アルゴリズム(今度GPWで発表するやつです)を使い、探索は全幅1手+静止探索(1段目6…

なんぞこれ

上で書いた2番目の学習で得たパラメータですが、試しに稲庭将棋さんとスパーリングしてたら変な事になってます。 なんなんでしょうね、これ? 「浮き無敵囲い?」それとも「リッチブリッジもどき?」 金銀が前進するのは予想の範囲内ですが、まさか王将まで…

入玉関連の評価値

一晩かけて約8,300局自己対戦した結果ですが、入玉関連のパラメータ(の一部)はこんな感じになりました。 王将の敵陣までの経路_距離1 : -0.002580 王将の敵陣までの経路_距離2 : -0.011588 王将の敵陣までの経路_距離3 : -0.022872 王将の敵陣までの経路_…

入玉率結構高い

昨夜から学習を始めて現在4,200局経過しました。 で、気になる入玉の発生確率ですが、概ね3〜6%程度で推移しています。学習初期は最大17%でしたが、これはたまたまでしょう、多分。 今回は特別入玉を目指す様なカラクリは無いんですが、評価項目を増やした…

パラメータを初期値に設定しなおして投入

目標探査率のランダムウォークを有効にした上で、パラメータを初期値(ごく小さな乱数)から再度学習させてみます。 基本的には前の設定と同じですが、静止探索深さだけは1段目6手・2段目無制限に変更しました。 とりあえずかなり時間はかかるかと思いますが…

一昨日の5五将棋の続き

http://d.hatena.ne.jp/Gasyou/20120913/1347540962 正確な数字は酔った勢いでファイル消しちゃって分かんないんですが、確かssp相手に勝率70%前後でした。あんまり伸びてないですね。 ただまぁ、悪い方向には行ってないみたいなんで、本将棋の方にも同じ様…

VS ssp(5五将棋モード)

一昨日書いた目標探査率をランダムウォークさせる学習ですが、ようやく適切なメタパラメータ*1が決まったんで、一晩連続対局させてみました。 学習条件は方策勾配法・全幅1手+静止探索4手で線形の評価関数を用いるものです。 んで、約24万局学習後のパラメ…

VS Bonanza(一手一秒)

なんと! 224連敗でした!! _| ̄|○ まだまだ追い越せないですねぇ… 先は長い……

VS Bonanza(3手読み)

75-2-92で勝率44.9%、95%信頼区間は37.2〜52.8になりました。 もっと勝率低いかと思っていたので意外ですね。 今度は、試しに双方一手一秒でやらせてみます。まぁ、これは大幅に負け越すでしょうが。

ここ数日の出来事

えー、日曜夜くらいから自宅のインターネット回線が不調で、ブログに書きたいけど書けない状態でした。 んで、とりあえず順番に書いてみます。 新PC購入 学習用マシンとして1台組みました。 スペックはCore i7 3770KにZ77マザー、メモリは32GBって感じです。…

VS ssp(本将棋モード)

マシン3台で同じ実行ファイル・パラメータで連続対局した結果です。GA将はほぼシングルスレッド*1です。対局相手のsspはGA将と同じそれぞれのマシンで動作させ、互いにPonder無しです。 あと、i7マシンは学習プログラムやらなんやらが動いていて比較的高負荷…

VS ssp(本将棋モード)

結局292-5-233で勝率55.6%、95%信頼区間は51.3〜59.9になりました。 昨夜の時点では136-2-81で95%信頼区間が55.9〜69.1でしたから、なんかおかしい気もします。偶然かもしれませんが。 んで、ちょっと気になるのは、昨夜寝る前にマシンに負荷のかかるプロ…

VS ssp続きの続き

136-2-81で勝率62.7%になりました。 明日の夜までスパーリング続けて、勝率6割超が確定したらfloodgateに投入したいですね。 …とか言ってると、一晩たったら勝率ガタ落ちなのが今までのパターンなんですが。ちと心配です。

VS ssp続き

現在58-0-38で勝率60.4%、95%信頼区間は49.9〜70.3。 とりあえず50%を越えるのは確実っぽいんで一安心です。

VS ssp(本将棋モード)

途中経過は19-0-12。勝率60%前後です。 このままの勝率で確定しそうなら、floodgateに投入してみたいですね。 ただ、互いに逆転勝ちが多いのが気になります。さっきなんて、GA将!!!!!!が思い出王手してたら何故か勝っちゃったりしてましたし(汗

VS ssp(本将棋モード)

147-4-165で勝率47.1%、95%信頼区間は42.0〜49.3。微妙に勝率上がってはいますが… このまま学習を続けて、どこまで伸びるか見てみる事にします。なんせ、まだ12万局程しか学習していないので。最低20万局位はやらせたいですね。

VS ssp(本将棋モード)

昨日からやってた結果。 最終的に337-8-402で勝率45.6%、95%信頼区間は42.0〜49.3になりました。 勝率60%を超えたらfloodgateに投入したいんですが、まだ先は長そうです。

VS Lesserkai(本将棋モード)

20連勝しました! 学習は方策勾配法・全幅深さ1手で行い、約11万局学習したものです。 ある程度強くなってはいるらしいので、今度はssp相手にスパーリングさせてみます。

VS ssp(5五将棋モード)

昨夜から今朝までの分で、対局数は340。 結果は221-0-119で勝率65.0%、95%信頼区間は59.7〜70.1。前よりやや弱くなっていますね。 んで、TDLeaf(λ)・方策勾配法で深さ0〜2までのデータが揃ったんで、表にまとめてみます。全部5五将棋で、対sspの勝率です。…

VS ssp(5五将棋モード)

方策勾配法・全幅2手で約6万4千局自己対戦学習したパラメータです。 結果は150-0-67で勝率69.1%、95%信頼区間は62.5〜75.2。前回の結果とほぼ同じですね。 これで頭打ちかどうか気になるので、更に1万2千局学習させたバージョンで一晩やらせてみます。

5五将棋モード固有のバグだった

5五将棋の連続対戦はプチ将棋を使わせてもらってますが、以前のバージョンではバグか仕様かで打ち歩詰めは反則負けにならない様になっていた記憶があります。 で、それに合わせて探索ルーチンの方も5五将棋モードの場合は打ち歩詰めは単なる「勝ち」として評…

VS ssp(5五将棋モード)

方策勾配法・全幅深さ2手で2万6千局のやつ。 結果は188-?-177で勝率51.5%、95%信頼区間は46.2〜56.7。まだ収束していなから弱いって事でしょうか。 今度は今朝まで学習させたパラメータ(約4万4千局)で連続対戦させてみます。

上で書いた連続対戦の続き

結局378-?-183で勝率67.4%、95%信頼区間は63.3〜71.2になりました。 勝率が7割超えなかったのは残念ですが、そこそこ強くはなってますね。 んじゃ次は方策勾配法・全幅深さ2手のパラメータで一晩やってみますか。対局数がまだ2万6千局なんで、多分弱いとは…

なんか、異常に強いんですけど…

昨夜から方策勾配法・全幅深さ1手で17万局程学習させたやつ。 現在ssp(5五将棋モード)相手に71-?-22で勝率76.3%。95%信頼区間は66.4〜84.5なので、全幅0手より確実に強いですね。 運良く強いパラメータの時に学習を打ち切ったせいかもしれませんが、ここ…