GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2014-02-01から1ヶ月間の記事一覧

方策のデバッグ中

なんですが、-1%の誤差をどう扱ったものかと思案中。 手選択に関わるバグなら放置出来ませんが、単なる計測ミスなら問題無し。 んで、現状ではどっちとも断定不可能。 …もうちょっと調べてみる必要あるかな、これは。

あう…

九十九に問い合わせたらi7 4930K在庫切れ… 学習用マシン組むのは来週かぁ…

→→→→→→→→→→

選手権まであと「70日」!!! やヴぁいです。本格的にピンチです。

今日の予定

方策周りのデバッグ Fruit読む 学習用マシンの買い替え準備 モーパイ映画鑑賞 方策のデバッグですが、学習用マシンで走らせた結果から、理論値と実際の値がどうしても1%マイナス方向に誤差が出てます。 と言う訳で、まずここから着手です。

そう言えば、今日は誕生日でした

ツー訳でめでたくアラフォーの仲間入り。 例年この時期は誕生日なんてそっちのけで開発してるんですが、どうやら今年もそうなりそうです。

久々に更新

選手権まであと2ヶ月チョイしか無いので、それまでに出来そうなのをピックアップ。 前提条件として、マシンは6コア12スレッドのものを購入して学習・選手権に使用するものとします。 新学習アルゴリズムのデバッグ・各種メタパラメータの調整 評価項目追加 …

とりあえず一勝

1-0-2で負け越してますが (´・ω・`) まぁでも、ざっと見た感じムチャクチャ変な手はあまり指さないので、まぁ良いとしますか。

今日からは本将棋

一昨日から学習してた本将棋用のパラメータですが、試しにLesserkaiと20戦やらしてみました。 で、結果は20連勝。上々です。 前よりも桂馬を跳ねて攻めるのを好んだり、劣勢になってもねばって逆転したり、割と良い傾向が見られました。 と言う訳で今からssp…

学習用マシン購入予定

Xeonデュアルで12コアなマシンは諦めて、Core i7 4930Kで組む事にしました。 コア数は半減しますが、クロックは3割程度向上しますので、そんなに速度低下は無いはず。 買い換えるパーツはCPU・RAM・M/B・電源だけにして、ストレージ・OS・ケースは流用予定。…

VS ssp(5五将棋モード)

新アルゴリズムで学習時の対局数は32万局。 結果は291-?-147で勝率66.4%。95%信頼区間は61.8〜70.9。 評価項目を追加しても誤差程度しか強くなってませんね。 んで、今は本将棋の学習中なんですが、24時間で1万5千局程しか進んでないです。 これは、収束す…

う〜ん…

どうやっても1%誤差が出る。 単にプラスマイナス両方向に出るなら納得出来るけど、何故かほぼマイナス方向に出るって… バグか計測ミスかのどっちかなんだけど、どっちなんだろ?

今日の予定

ソフトマックス方策のログにやや気になる現象があるので、それの調査。必要ならデバッグも。 ここがバグってると結構致命的なんで、みっちり調査してみます。

Ivy Bridge-EX発表&Haswell-EP/Broadwell-EPとソケット互換?

http://pc.watch.impress.co.jp/docs/news/20140219_635829.html Ivy Bridge-EX(Ivytown)がXeon E7-8800 v2シリーズとして正式発表された様です。 最上位のE7-8890 v2は15コア/2.8GHzで最大8ソケット構成。240スレッドを同時実行可能な事になります。 さす…

VS ssp(5五将棋モード)

昨夜から今朝まで約11万局学習したパラメータ。 あ、スペックは今まで書いていませんでしたが、こんな感じ。 全幅探索(反復深化)+LMR+2段階静止探索(6手+無制限) 評価関数は下記の通り 駒割 駒の絶対位置評価 二駒の相対位置評価 二駒の絶対位置評価 …

VS ssp(5五将棋モード)

昨夜からの一晩分。 勝敗は160-?-82で勝率66.1%。95%信頼区間は59.8〜72.1。 とりあえず、PGLeafの勝率とほぼ同等にはなりました。 さて、それでは次は評価項目を追加したパラメータで連続対局を開始します。

しゅ〜りょ〜

二駒絶対を追加して学習用マシンに投入。開発用マシンではアサーション有効でテストしてます。 んでもって、昨夜から学習していたパラメータを連続対戦に投入。現在4-0-5で負け越してますが、まぁ誤差の範囲内でしょう。

今日はあまり時間がありません

と言う訳で、軽くテストしてから連続対局を仕込んで寝る事にします。 とりあえず、この前実装した二駒絶対評価から着手かな。

VS ssp(5五将棋モード)

新アルゴリズムで7万6千局ほど学習させたバージョン。 結果は337-?-307で勝率52.3%。95%信頼区間は48.4〜56.2。 素のPGLeafより弱いですが、引き続き21万局学習させたパラメータがありますので、今夜はそっちでスパーリングさせてみます。

対局数少ないと当てにならんなぁ

昨夜からほぼ1日学習させたパラメータでssp(5五将棋モード)と対局させてます。 んで、最初は3-0-6位で負け越してたのが、今は14-0-12。 やっぱ、対局数少ないうちに一喜一憂するのは禁物ですね。

細々修正

学習率の調整とか、自己対戦学習時にルートノードからLMRを有効にしたりとか。 …本質的な改良は何も出来てないなぁ。

う〜ん…

昨夜から一晩分の結果。対ssp(5五将棋モード)で一手一秒。 結果は154-?-110で勝率58.3%。95%信頼区間は51.4〜71.5。 前(PGLeaf)より弱くなってます。

今更局面クラスのバグ発見

千日手とか入玉勝ちとかの条件判定をミスってて、千日手・入玉の場合に自己対戦が終了しないってバグが有りました。 …まぁ、早めに発見出来たのを喜ぶべきでしょうか。これが選手権直前だったりしたら、軽くパニックになりそうです。

sspとスパーリング開始

新アルゴリズムで10万局学習させたバージョン(5五将棋モード)です。 学習時間は5時間ジャスト。学習速度もまぁまぁイイ感じです。

二つ上↑のバグの件

色々検討した結果、バグではなく私のアルゴリズムが間違っていたという結論になりました。 と、いう訳でスッキリした所で、夕方から学習させてた5五将棋のパラメータをsspとのスパーリングに投入してみます。 本将棋の方は5時間かけて200局しか進んでないの…

ヤバい

原典を無くしてしまった _| ̄|○ 「多分あっこらへんの山の下」って見当はついてるんですが、どう探しても出てこねぇっす。 …布教用も兼ねて、もう一冊買えっていう啓示か?

デバッグ出来た…のか?

一応、駒割の学習は成功したみたいです(5五将棋のパラメータです)。 ただ、なんか原因が腑に落ちないと言うか何と言うか… 潜在バグの可能性もあるんで、もうちょっと調べてみます。

あーもー

バグが取れね〜。つか、原因すら不明。 …よし、今日は酒のんでふて寝しよう。

スゴく…一直線です…///

ど〜見てもバグですね。早速修正します。

適格度トレース実装完了

と言っても、アルゴリズム自体は以前も実装した事ありますし、現局面から先の報酬を順番に重み付けして加算して行くだけの簡単なお仕事でした。 と言う訳で学習用マシンに本将棋モードで投入。開発用マシンの方は5五将棋モードでやらせてみます。

を、なんかいい感じ?

20000局終了 +---+---+---+---+---+---+---+---+---+ |v香|v桂|v銀| |^角| |^圭| | | +---+---+---+---+---+---+---+---+---+ | | |v金|v王|^銀| | | |v香| +---+---+---+---+---+---+---+---+---+ |v歩| |v歩| |v歩|^角|^と| |v歩| +---+---+---+---+---+--…