GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2014-06-01から1ヶ月間の記事一覧

SR-PG行動期待値法 実装完了

結局、上の相互参照は無理やり解決して、とりあえず実装完了。今からテストします。 んで、当初は局面評価関数のみ学習させる予定でしたが、どうも着手評価関数も同時に学習しないと上手く動かないらしいので、いきなり両方同時学習する事に。 色々同時にや…

相互参照で詰んだ

解決策はあるけど、全部工数がかかるしなぁ… はぁ、どうするべきだろう…

PG行動期待値法を実装開始

SR-PGLeafみたいに拡張予定です。 で、探索ルーチン側の修正中ですが、予想以上に難しそうです。 これは、7月中に完成させるのは無理か?

ARPS開発終了

ARPS*1ですが、遷移確率関数をざっくり学習後に、局面評価関数(ゼロから学習)と遷移確率関数(パラメータ引き継ぎ)の同時学習をしてみました。あ、5五将棋です。 で、結果。対sspの1秒将棋で266-0-113の勝率70.2%。 明らかに弱くなってるんで、ARPSは断…

荒ぶるHistory Heuristic

ARPSによる実現確率探索の学習中です。 56,000局程学習させたパラメータセットですが、大抵のパラメータが0.15以下なのにHistory Heuristicのパラメータは1.5前後。 出現頻度高い&そこそこ信頼出来る特徴量だから値が大きくなってるんでしょうが、さすがに…

疑惑の真相

「区間幅が変わっているから」というのは正解だったみたいです。 …はぁ。学習ルーチンのバグ発見かと喜んだのに、空振りでしたか。

バグってなかった疑惑

上の現象ですが、パラメータ数が多い区間はちょうど区間の幅が増えた部分です。 例えば0.08,0.09,0.10,0.20,0.30だと、区間幅は0.01,0.01,0.10,0.10です。 という訳で、正規乱数と一様乱数のデータを放り込んでどういうグラフになるか見てみます。

あれ?

遷移確率関数のパラメータを、評価項目ごとに分布をグラフにしてみたんですが、何か変。 0.002・0.02・0.2と、ちょうど10倍ずつの区間だけパラメータ数が多いです。(グラフのピークになっている部分。) …バグかなぁ、バグだろうなぁ。

だんだん分かってきた

ARPS*1の遷移確率の学習が上手く行ってなかったんですが、原因らしきものが分かってきました。 まず、前提として下記の様なアルゴリズムを考えました。 本将棋・5五将棋で使用する。 ARPSベースの実現確率探索。 遷移確率は自己対戦の棋譜・最善手(ルートノ…

グローバル詰みテーブル有効時の連続対局

VS ssp(5五将棋モード)で検証。 んで、結果は398-?-55で勝率87.9%、95%信頼区間は84.5〜90.7。 …明らかに弱くなってます。困った。

VS ssp(5五将棋モード)

SR-PGLeafで評価関数と探索ルーチンのパラメータを同時に学習させたもの。 結果、569-?-59で勝率90.6%。95%信頼区間は88.0〜92.8。 期待していた程は勝率が上がってないですが、とりあえず次は本将棋の方で学習させたのを試してみます。

グローバル詰みテーブル

有効にしたら11-0-4で勝率73.3%。明らかに弱くなってます。 つー事で、とりあえず無効にして連続対局を再開。弱くなる原因究明は明日にします。

Softmax実現確率探索 実装中

ARPSで学習したバージョンだと、対ssp(5五将棋モード)が86-0-9で勝率90.5%。95%信頼区間は82.8〜85.6。 んで、グローバル詰みテーブルを無効にしたままだったんで、それを復活させて今からリトライします。 ただなぁ、全幅探索ベースでも勝率80%超えて…