並列探索の効果

開発日記

思考時間をちょっといじって、対ssp（本将棋モード）の棋力がどの程度変化するか調べてみました。まず、マシンはCore i7 5960X Hyper Threading有りなので、16並列です。並列化が最高に上手く行ってNPSが16倍になれば、ルート仮説から探索速度は4倍程度に…

2015-02-27

20:00の回から復帰します

開発日記 floodgate

昨夜から連続対戦していた設定で、思考時間制御だけ新ルールに合わせて調整しました。本命は並列探索の実装後なんですが、とりあえずテストって事で投入します。

2015-02-27

VS Lesserkai 1.3.6

開発日記学習経過

本将棋で対局させて、無事20連勝出来ました。ある程度は強くなってるみたいなんで、今度はsspと一晩スパーリングです。

2015-02-27

うん、上々

開発日記

「前回選手権時の評価関数パラメータ＋探索パラメータを手調整での改良版探索ルーチン」での連続対局ですが、結局ssp（本将棋モード）相手に323-0-51で勝率86.4％、95％信頼区間は82.5〜89.7になりました。 81％の確率で以前の探索ルーチンより強くなってる…

2015-02-26

あれ？意外と悪くない！？

開発日記

前回選手権時の評価関数パラメータ＋探索パラメータを手調整での改良版探索ルーチンだと、対ssp（本将棋モード）が54-0-10。勝率は84.4％。改良前の探索ルーチンだと同じ評価関数パラメータを使って勝率83.9％だったから、意外と悪くない数字かも。（まぁ、…

2015-02-26

VS ssp（5五将棋モード）

開発日記学習経過

昨夜からやっていた、改良版の探索ルーチンを用いた対局。結果は700-0-264で勝率72.6％。95％信頼区間は69.7〜75.4。同じ評価関数パラメータを使って改良前の探索ルーチンだと勝率90.1％だったので、明らかに弱くなってます。 …で、GAを使った探索パラメー…

2015-02-25

VS ssp（5五将棋モード）

開発日記学習経過

GAで学習させた探索パラメータを使用したバージョン。現在10連勝。どうも、適当な評価関数パラメータを使って探索パラメータを学習させてたのがダメだったみたいです。対局で使用する評価関数パラメータを使って学習すると、わりかし上手く行ってます。探…

2015-02-24

よし

開発日記

3月中に探索か評価関数の改良が上手く行かなかったら、4月から前回選手権バージョンをベースに改良しよう。つっても、並列探索位しか手は無いので、上手く行っても棋力向上は微妙ですが。

2015-02-23

続 GA

開発日記

適応度*1計算で「全幅探索との一致率が10％上がるなら、速度半分になっても良いよ」と指定したら「探索速度倍になったから、一致率が10％下がっても良いよね」って学習してくれた。 …いやまぁ、それはそれで正しい動作なんですけどね (´・ω・`) *1:遺伝子（…

2015-02-23

GAでの探索パラメータの学習

開発日記

k-tablet、Rosenbrock、Bohachevskyを足し合わせた関数の最適化が可能な事を確認した上で、5五将棋での探索パラメータ学習を開始。 GAのアルゴリズムはJGG+REXstarでやってます。ただ、探索パラメータは結構変な値になってるんで、もう少し時間をかけるなり…

2015-02-22

選手権までにやる事

TODO

GAによる探索パラメータの学習（3月末まで）並列探索（4月中に）まぁ、可能なのはこれ位かな、実際。 GAの方は行き詰まり気味ですが、後1ヶ月でなんとか形にしたいですね。

2015-02-21

Null Move Pruningの成功率が低い…

開発日記

成功率が3割〜4割って、低すぎでしょう… どっかバグってるはずなんで、調べてみますか。

2015-02-17

Gradient-based Hyperparameter Optimization through Reversible Learning

後で読む

http://arxiv.org/pdf/1502.03492v2.pdf Abstractを読んだ限りだと、教師あり学習を対象にしているっぽい雰囲気。まぁ、ちゃんと読めばその辺はっきりするでしょう。

2015-02-17

Policy Tree: Adaptive Representation for Policy Gradient

後で読む

http://webdocs.cs.ualberta.ca/~bowling/papers/15aaai-policytree.pdf Decision Treeと方策勾配法を組み合わせて、状況に応じて方策を切り替えれる様にする手法（だと思う、多分）。面白そうだしコンピュータ将棋と相性が良さそうなんで、選手権後にでも…