GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

学習経過

え〜

floodgateは最下位を絶賛独走中です。 んで、spp(本将棋モード)相手は137-0-89で勝率60.6%、95%信頼区間は53.9〜67.0。あ、全幅1手で学習した結果です。 さて、次は全幅1手のパラメータを引き継いで、全幅2手で3万7千局学習したパラメータで連続対戦させ…

VS ssp(5五将棋モード)

改良型PGLeafで45万局学習したパラメータでの結果。 対局数は少ないですが、64-0-11で勝率85.3%。95%信頼区間は75.3〜92.4。 オペミスでパラメータファイルをロストしたんでこれ以上の対局は無理ですが、まぁ割と良い結果なので良しとしましょう。 んでも…

とりあえず一勝

1-0-2で負け越してますが (´・ω・`) まぁでも、ざっと見た感じムチャクチャ変な手はあまり指さないので、まぁ良いとしますか。

今日からは本将棋

一昨日から学習してた本将棋用のパラメータですが、試しにLesserkaiと20戦やらしてみました。 で、結果は20連勝。上々です。 前よりも桂馬を跳ねて攻めるのを好んだり、劣勢になってもねばって逆転したり、割と良い傾向が見られました。 と言う訳で今からssp…

VS ssp(5五将棋モード)

新アルゴリズムで学習時の対局数は32万局。 結果は291-?-147で勝率66.4%。95%信頼区間は61.8〜70.9。 評価項目を追加しても誤差程度しか強くなってませんね。 んで、今は本将棋の学習中なんですが、24時間で1万5千局程しか進んでないです。 これは、収束す…

VS ssp(5五将棋モード)

昨夜から今朝まで約11万局学習したパラメータ。 あ、スペックは今まで書いていませんでしたが、こんな感じ。 全幅探索(反復深化)+LMR+2段階静止探索(6手+無制限) 評価関数は下記の通り 駒割 駒の絶対位置評価 二駒の相対位置評価 二駒の絶対位置評価 …

VS ssp(5五将棋モード)

昨夜からの一晩分。 勝敗は160-?-82で勝率66.1%。95%信頼区間は59.8〜72.1。 とりあえず、PGLeafの勝率とほぼ同等にはなりました。 さて、それでは次は評価項目を追加したパラメータで連続対局を開始します。

VS ssp(5五将棋モード)

新アルゴリズムで7万6千局ほど学習させたバージョン。 結果は337-?-307で勝率52.3%。95%信頼区間は48.4〜56.2。 素のPGLeafより弱いですが、引き続き21万局学習させたパラメータがありますので、今夜はそっちでスパーリングさせてみます。

対局数少ないと当てにならんなぁ

昨夜からほぼ1日学習させたパラメータでssp(5五将棋モード)と対局させてます。 んで、最初は3-0-6位で負け越してたのが、今は14-0-12。 やっぱ、対局数少ないうちに一喜一憂するのは禁物ですね。

う〜ん…

昨夜から一晩分の結果。対ssp(5五将棋モード)で一手一秒。 結果は154-?-110で勝率58.3%。95%信頼区間は51.4〜71.5。 前(PGLeaf)より弱くなってます。

sspとスパーリング開始

新アルゴリズムで10万局学習させたバージョン(5五将棋モード)です。 学習時間は5時間ジャスト。学習速度もまぁまぁイイ感じです。

を、なんかいい感じ?

20000局終了 +---+---+---+---+---+---+---+---+---+ |v香|v桂|v銀| |^角| |^圭| | | +---+---+---+---+---+---+---+---+---+ | | |v金|v王|^銀| | | |v香| +---+---+---+---+---+---+---+---+---+ |v歩| |v歩| |v歩|^角|^と| |v歩| +---+---+---+---+---+--…

対ssp(5五将棋モード)で勝率60%超えました

PGLeafで17万局ほど学習させたパラメータを使用。 んで、全幅+静止探索だと26-0-28*1で勝率48.1%。これにLMRを加えたら69-0-37で勝率65.1%になりました。 ちなみに評価項目はこんな感じ。 駒割 駒の絶対位置評価 二駒の相対位置評価 駒の自由度 王将の移動…

え〜

対sspの連続対戦は、勝率10%未満でした。 んで、ちょっとソースを眺めてたらパラメータ修正部分にバグ発見。直して学習用マシンに再投入しました。 …こんな調子で選手権間に合うのかな?

夜の一人遊び

えー、逆強化学習は上手く行かないので当面放置する事にしました。 で、合議方策勾配法のコードを引っ張り出してきてそっちをリトライ。 とりあえず、1クライアントの合議で強くなるかを試してます。 「合議になってない」ってツッコミはごもっともですが、…

詰将棋ルーチン有りでの対ssp勝率

60-0-46で勝率56.6%。95%信頼区間は46.6〜66.2。 多分詰将棋ルーチン無しよりは強くなってるはず。 んで、自己対戦約21万局分*1のパラメータが出来てるんで、今度はこっちで連続対戦させてみます。 *1:10日ほどかかってます

連続対戦用の乱数設定

http://d.hatena.ne.jp/Gasyou/20140109/1389219550 以前乱数加算をしていない結果を載せましたが、結局あれがベストの設定だったみたいです。 乱数加算すると、どうしても弱くなってしまうので、あんまり正確な結果になりませんでした。 という訳で、当面は…

上で書いた連続対局

エラーで止まってました _| ̄|○ 原因はケアレスミスだったんで、そこを修正してリトライ。明日朝まではかかるかな。 floodgateは2週間レーティング1400前後をウロチョロしてます。まぁ、これなら上出来かな。

sspとの連続対局

前に書いた勝率43%は間違いでした。 間違いと言うか、正確に書くと「評価値に乱数を足していなかったので、同一の手順で勝敗が決したケースが多い」という状況です。 試しに終局時の局面のハッシュコードをログ出力させてみたら、昨夜からの107戦(48-0-59…

う〜ん、う〜ん…

何か、終盤の寄せ方が危なっかしいなぁ。 駒得してるんだからジリジリ寄せてけば良いはずなのに、大駒ぶった切って一気に決めようとする。 自己対戦で強化学習なので終盤は割と正確に学習しているはずなのに、この棋風は何なんだろう… これじゃぁ上位の相手…

う〜ん

最新バージョンのパラメータ、何か攻撃的すぎる気が。棒銀の後に王手飛車くらったりしてるし… まぁ、とりあえず一晩様子を見てみますか。 あ、そうそう。対局の途中経過をメールで通知する機能が欲しいなぁ。Visual C++で可能なんだろうか?

棒銀ぽい戦法を覚えた?

自己対戦10万局弱のパラメータ(現時点で最新のもの)です。 記念に棋譜をペタリ。 32手目7四銀が無理攻めかと思いきや、そのまま押し切って勝っちゃいました。 よし、イイ感じです、これは。

VS ssp(本将棋モード)

129-0-167で勝率43.6%。95%信頼区間は37.9〜49.4。 まだsspよりは弱いですが、昨日よりはだいぶマシになりました。 自己対戦学習の対局数が8万弱なので、まだ伸び代はあると信じて学習を続行します。

VS Lesserkai 1.3.3(本将棋モード)

20-0-0で95%信頼区間は83.2〜100.0。 という訳で、Lesserkaiに対しては「明らかに強い」という結果になりました。 学習ルーチンはPGLeafで、自己対戦約5万3千局で学習しました。 対局時のルーチンは全幅*1+静止探索4手。詰将棋ルーチンは無し。 という訳で…

VS ssp(5五将棋モード)

今朝から走らせてて、勝率が約55%でした。 それなりに強くなってるのは、多分昨日の修正が効いているんでしょう。 という訳で現在は本将棋で学習中。 24時間あたり1万6千局ペースですので、1週間程度は学習に時間がかかるかと思います。 つー事で、当面は5…

vs ssp(5五将棋モード)

今朝から一晩分。84万局自己対戦後のパラメータで。学習時の探索深さは全幅1手+静止探索。 んで、結果。93-?-719で勝率11.5%、95%信頼区間は9.3〜13.8。 とりあえずこれをベースラインとして、後は探索を深くしてどの程度強くなるかですね。

とりあえず4x4リバーシは完了

線形の評価関数を使って、1,000局前後でちゃんと収束する様になりました。 TD誤差とその予測値の相関係数ですが、0.5前後となりまずまずの値。 んで、今朝から走らせていた本将棋の学習ですが、9,500局経過後のパラメータでLesserkai相手に17-0-3。 まだ伸び…

VS sspで勝率50%超えた

http://d.hatena.ne.jp/Gasyou/20130812/1376273087 で使ってたパラメータそのままで、探索ルーチンをFutility Pruning無しに変更したもの。 結果は78-0-77で勝率50.3%。95%信頼区間は42.2〜58.4。 どうも、Futilityのバグかパラメータ調整不足か、そんな…

VS ssp(本将棋モード) 一晩分

133-8-196で勝率40.4%、95%信頼区間は35.1〜45.9。 前よりちょっとだけ勝率上がったんで、良い感じですね。 さて、それでは次は昨夜から学習させてた分を連続対戦させてみます。今度は、評価項目は同じで駒割の特徴量を8倍したものです。

VS ssp(本将棋モード) 一晩分

56-2-121で勝率31.6%、95%信頼区間は24.9〜39.0。 評価項目は駒割+盤上の利きの数の評価+王将周辺の利きの数の評価。 という訳で、これを基準として評価項目追加で強くなってるか検証していきます。