GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2015-02-01から1ヶ月間の記事一覧

並列探索の効果

思考時間をちょっといじって、対ssp(本将棋モード)の棋力がどの程度変化するか調べてみました。 まず、マシンはCore i7 5960X Hyper Threading有りなので、16並列です。 並列化が最高に上手く行ってNPSが16倍になれば、ルート仮説から探索速度は4倍程度に…

20:00の回から復帰します

昨夜から連続対戦していた設定で、思考時間制御だけ新ルールに合わせて調整しました。 本命は並列探索の実装後なんですが、とりあえずテストって事で投入します。

VS Lesserkai 1.3.6

本将棋で対局させて、無事20連勝出来ました。 ある程度は強くなってるみたいなんで、今度はsspと一晩スパーリングです。

うん、上々

「前回選手権時の評価関数パラメータ+探索パラメータを手調整での改良版探索ルーチン」での連続対局ですが、結局ssp(本将棋モード)相手に323-0-51で勝率86.4%、95%信頼区間は82.5〜89.7になりました。 81%の確率で以前の探索ルーチンより強くなってる…

あれ?意外と悪くない!?

前回選手権時の評価関数パラメータ+探索パラメータを手調整での改良版探索ルーチンだと、対ssp(本将棋モード)が54-0-10。勝率は84.4%。 改良前の探索ルーチンだと同じ評価関数パラメータを使って勝率83.9%だったから、意外と悪くない数字かも。(まぁ、…

VS ssp(5五将棋モード)

昨夜からやっていた、改良版の探索ルーチンを用いた対局。 結果は700-0-264で勝率72.6%。95%信頼区間は69.7〜75.4。 同じ評価関数パラメータを使って改良前の探索ルーチンだと勝率90.1%だったので、明らかに弱くなってます。 …で、GAを使った探索パラメー…

VS ssp(5五将棋モード)

GAで学習させた探索パラメータを使用したバージョン。現在10連勝。 どうも、適当な評価関数パラメータを使って探索パラメータを学習させてたのがダメだったみたいです。対局で使用する評価関数パラメータを使って学習すると、わりかし上手く行ってます。 探…

よし

3月中に探索か評価関数の改良が上手く行かなかったら、4月から前回選手権バージョンをベースに改良しよう。 つっても、並列探索位しか手は無いので、上手く行っても棋力向上は微妙ですが。

続 GA

適応度*1計算で「全幅探索との一致率が10%上がるなら、速度半分になっても良いよ」と指定したら「探索速度倍になったから、一致率が10%下がっても良いよね」って学習してくれた。 …いやまぁ、それはそれで正しい動作なんですけどね (´・ω・`) *1:遺伝子(…

GAでの探索パラメータの学習

k-tablet、Rosenbrock、Bohachevskyを足し合わせた関数の最適化が可能な事を確認した上で、5五将棋での探索パラメータ学習を開始。 GAのアルゴリズムはJGG+REXstarでやってます。 ただ、探索パラメータは結構変な値になってるんで、もう少し時間をかけるなり…

選手権までにやる事

GAによる探索パラメータの学習(3月末まで) 並列探索(4月中に) まぁ、可能なのはこれ位かな、実際。 GAの方は行き詰まり気味ですが、後1ヶ月でなんとか形にしたいですね。

Null Move Pruningの成功率が低い…

成功率が3割〜4割って、低すぎでしょう… どっかバグってるはずなんで、調べてみますか。

Gradient-based Hyperparameter Optimization through Reversible Learning

http://arxiv.org/pdf/1502.03492v2.pdf Abstractを読んだ限りだと、教師あり学習を対象にしているっぽい雰囲気。 まぁ、ちゃんと読めばその辺はっきりするでしょう。

Policy Tree: Adaptive Representation for Policy Gradient

http://webdocs.cs.ualberta.ca/~bowling/papers/15aaai-policytree.pdf Decision Treeと方策勾配法を組み合わせて、状況に応じて方策を切り替えれる様にする手法(だと思う、多分)。 面白そうだしコンピュータ将棋と相性が良さそうなんで、選手権後にでも…

GAによる探索パラメータの学習をリトライ

前回選手権時の探索ルーチンを少し改良して、GAでパラメータ調整を出来る様にしました。 で、全幅探索深さを5手にした場合の、枝刈り無し・枝刈りあり(手調整)の速度&一致率比較。 一致率92%で高速化率20倍なので、GAでこれを上回るのが目標です。 とり…

Parameter-exploring Policy Gradients

http://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/Neural-Networks-2010-Sehnke_[0].pdf

あれ?

なんか、はてなダイアリーにファイルアップロード機能がある!? という訳で、以前公開していたGA将のバイナリを再度公開してみます。 gasyou8_8.0.23a.zip 上手くダウンロード出来ない方が見えましたら、お手数ですがお知らせ下さい。

探索の改良中

色々やった結果、評価値に付随する情報(評価関数の出した値か、とか、ハッシュに格納してOKか、とか)が必要になってきて、評価値クラスを作る事に。 んで、評価関数・探索ルーチンの結構な量を修正する必要が出てきました。 とりあえず現時点でエラーが25…

Let's Enjoy!!

方針変更。と言うか、元に戻す。 強くならなくてもいい、かっこ良くなくてもいい。 まずは自分がやってて楽しいと思う事だけやろう。

ここ数日テストしたものの

バグらしき箇所は発見出来ず。 という訳で、とりあえず5五将棋モードで学習用マシンに投入。一晩様子を見ます。

バグの原因がサッパリ分からん

という訳で、今日発見した動画を貼って寝る。【AI作曲】機械知性による非人類のための楽曲集【12選】 - ニコニコ動画:GINZA

学習ルーチンの改良中

修正した探索ルーチンをSR-PGLeafと組み合わせて問題無い事を確認しました。 で、合議用の学習ルーチンと組み合わせると、今度は別の所で困った現象*1が起きたので、今度は学習ルーチンの改良中。 ヤバいなぁ、あと3ヶ月しか無いですよ。困った。 *1:特定の…