学習経過
全幅2手+静止探索で140万局学習したパラメータ。昨夜から一晩分。 結果は300-5-278で勝率51.9%。95%信頼区間は47.7〜56.0。 割とイイ感じなので、このパラメータをfloodgateに投入します。19:00の回から反映されるはずです。
探索パラメータを修正したバージョンで一晩分。1手1秒。 結果は139-0-196で勝率41.5%。95%信頼区間は36.2〜47.0。 「少しだけ強くなった」って感じでしょうか。 んで、全幅2手+静止探索で140万局学習したパラメータが出来たんで、今度はそっちで連続対局…
Bonanzaの方は探索深さ5手までに限定した、ハンディキャップマッチです。 んで、http://d.hatena.ne.jp/Gasyou/20150304/1425465085 で使った評価関数・探索ルーチンそのままで連続対局。 結果は389-0-625で勝率38.4%、95%信頼区間は35.4〜41.4。 とりあえ…
http://d.hatena.ne.jp/Gasyou/20150303/1425379246 昨日の棒銀を覚えた評価関数パラメータ+改良後の探索ルーチンでsspと連続対局。 結果、370-0-32で勝率92.0%、95%信頼区間は88.9〜94.5。 前回選手権時の評価関数パラメータだと勝率が84%だったので、…
V2.2 N+Lesserkai 1.3.6 N-Gasyou8_8.0.34 P1-KY-KE-GI-KI-OU-KI-GI-KE-KY P2 * -HI * * * * * -KA * P3-FU-FU-FU-FU-FU-FU-FU-FU-FU P4 * * * * * * * * * P5 * * * * * * * * * P6 * * * * * * * * * P7+FU+FU+FU+FU+FU+FU+FU+FU+FU P8 * +KA * * * * * +H…
本将棋で対局させて、無事20連勝出来ました。 ある程度は強くなってるみたいなんで、今度はsspと一晩スパーリングです。
昨夜からやっていた、改良版の探索ルーチンを用いた対局。 結果は700-0-264で勝率72.6%。95%信頼区間は69.7〜75.4。 同じ評価関数パラメータを使って改良前の探索ルーチンだと勝率90.1%だったので、明らかに弱くなってます。 …で、GAを使った探索パラメー…
GAで学習させた探索パラメータを使用したバージョン。現在10連勝。 どうも、適当な評価関数パラメータを使って探索パラメータを学習させてたのがダメだったみたいです。対局で使用する評価関数パラメータを使って学習すると、わりかし上手く行ってます。 探…
えー、評価関数のパラメータ修正後に置換表のデータをクリアしていなくて、修正**前**の評価値を参照・再利用していました。 多分、序盤〜中盤の頻出局面でしか影響は無いはずですが、一応修正してテスト中。
色々やったんでまとめて。 まず、従来の(静止探索中で枝刈りしないバージョンの)探索ルーチンでペナルティ無し。これがベースライン。 結果は742-19-239で勝率75.2%。95%信頼区間は72.8〜78.3。 それから、静止探索ではSEEが負の手は読まない様に改良し…
対ssp(5五将棋モード)は勝率85%くらいになりました _| ̄|○ 気を取り直して、本将棋の方の学習に期待しましょう。
5五将棋モードで三駒相対を実装して62万局学習させたパラメータ。探索深さは全幅3手+静止探索6手。 現在ssp相手に10連勝!!! 評価値の推移を見ていると、序盤からかなり優勢になってる対局が多い感じです。 出来れば今すぐ対局打ち切って「勝率100%」って…
結局、勝率85%前後になってダメでした。
今朝時点のパラメータ(VAPSLeafで60万局弱学習時のもの)で連続対戦中。 今現在16-0-1で勝率94.1%。前にSR-PGLeafで学習したバージョンは89.4%だったので、それを超えてくれると嬉しいなぁ。 しかし、勝率90%を超えるとポロッと負けただけで勝率ガタ落ち…
合議用SR-PGLeafで64万局ほど自己対戦したパラメータ。クライアント数は16。探索深さは全幅1手+静止探索1段目6手。 んで、バグってて連続対戦が途中で止まってましたが、その時点までで105-?-19で勝率84.7%。まだまだですね。 昨夜からほぼ丸一日かけて290…
本将棋モードでSR-PGLeafを使って評価関数パラメータのみ学習したバージョン。 結果は434-0-1で勝率…はいいか。 今朝時点の11万局ほど学習したバージョンですので、sspを相手にするにはもうちょっと対局数を増やす必要があるかと思います。 とりあえず、寝る…
Softmax実現確率探索ですが、ある程度はちゃんと学習が進む様になりました。 具体的には、5五将棋でssp相手に271-?-61で勝率81.6%、95%信頼区間が77.0〜85.6。 多分、「全幅探索ベースで前向き枝刈りはLMRのみ」の場合と同じ位の強さです。 んで、今日は着…
全幅1手で50万局+全幅2手で23万局のパラメータ。 結果は362-0-34で勝率91.4%、95%信頼区間は88.2〜94.0。 わりかし良い感じなので、14:00の回からfloodgateに投入します。
SR-PGLeafで全幅1手でザクッと学習*1後、全幅2手でパラメータを引き継いで学習したバージョン。 んで、現在32-0-8で勝率80%。まだまだですね。(まぁ、対局数が少ないんでそもそも80%って値自体信用出来ませんが。) 5五将棋では勝率90%弱まで行ったんで…
現在、SR-PGLeafで本将棋の学習中です。 んで、学習途中の終局図を見ると、なんとなく囲っている(らしい)形跡があります。 156200局終了 +---+---+---+---+---+---+---+---+---+ |v香| | |v王| |v桂|v金| |^龍| +---+---+---+---+---+---+---+---+---+ | |…
SR-PGLeafで55万局学習後のパラメータ。学習時の探索は全幅3手+静止探索6手。 結果、732-?-87で勝率89.4%、95%信頼区間は87.1〜91.4。 ちなみに2012年のGPW杯では、対sspの勝率70%前後の思考ルーチンで3位だったので、ひょっとしてこのパラメータなら優勝…
上で書いた、バグ修正後に全幅3手+静止探索6手で学習したパラメータ。 結果は454-0-88で勝率83.8%、95%信頼区間は80.4〜86.8。 とりあえず、前回の選手権時とほぼ同じ強さになったので、でかいバグは取れたでしょう。多分。
SR-PGLeafで33万局ほど学習したパラメータ。学習時は、昨日書いた静止探索のバグが有るバージョン(連続対局はバグ修正後)。 で、結果。263-0-77で勝率77.4%、95%信頼区間は72.5〜81.7%。 次は、バグ修正後に学習し直したパラメータでやってみます。
SR-PGLeafで評価関数と探索ルーチンのパラメータを同時に学習させたもの。 結果、569-?-59で勝率90.6%。95%信頼区間は88.0〜92.8。 期待していた程は勝率が上がってないですが、とりあえず次は本将棋の方で学習させたのを試してみます。
改良型PGLeafで報酬計算の式を修正。 で、結果。23万局学習したパラメータで対ssp(5五将棋モード)は300-?-93で勝率76.3%、95%信頼区間は71.8〜80.5。 わりかしいい感じなので、次は60万局学習後のパラメータで連続対戦してみます。
ssp相手に52-0-25。明らかに弱くなってる_| ̄|○ 全幅1手のデータを引き継ぎではこの辺が限界っぽいんで、最初から全幅2手での学習を開始します。 それから、14:30の回からCore i7 940マシンでfloodgateに参戦します。マシンスペックの差がどの程度棋力に影…
対sspは72-0-28。対Bonanza 6.0(3手読み)は60-0-40。 微妙に弱くなってる様な… まぁ、もうちょっと様子見しますか。
こんな手順で勝っちゃっていいのかよ… なんか、一晩たったら凶暴さに磨きがかかってる気がするんですが… V2.2 N+Gasyou7 N-ssp P1-KY-KE-GI-KI-OU-KI-GI-KE-KY P2 * -HI * * * * * -KA * P3-FU-FU-FU-FU-FU-FU-FU-FU-FU P4 * * * * * * * * * P5 * * * * * *…
ssp(本将棋モード)相手に124-0-44で勝率73.8%、95%信頼区間は66.5〜80.3になりました。 と言う訳で、望外に良い結果なのでこのパラメータでfloodgateに投入します。目指せ、gps500に一勝!! んでもって、今夜からはsspとBonanza 6.0 3手読みの2エンジン…
割とイイ感じに学習が進んでいる様です。 現在ssp(本将棋モード)相手に101-0-39。勝率72.1%の95%信頼区間は63.9〜79.4。 何か、全幅2手にしてから攻めっけが強くなったというか、凶暴になったというか、そんな感じです。 とりあえずもうちょっと学習が進…