GA将?開発日記~王の理とは~

ネタ勢最強を目指して絶賛開発中。

学習経過

まだまだ迷走中…

Factorization Machineを使用した疑似四駒関係は結局上手く行きませんでした。 という訳で、PPT+αで何とか強くしようと色々いじってます。 とりあえず、今までは割引率γを1に設定していましたが、これだとチョットぬるい手を指す事があるので、γ=0.99で学習…

いい感じいい感じ

昨夜から18時間ほど学習させたパラメータでsspと連続対局中ですが、現時点で53勝16敗、勝率76.8%。どうも、前回学習時の最終的な勝率と並びそうな感じです。 コード自体は前と同じで、RMSPropのαとノイズの標準偏差初期値をちょっといじっただけなんですが…

ここはじっと我慢の一手

今朝からsspとスパーリングしてたバージョンのパラメータですが、昨夜のやつより誤差程度弱くなっています。 ただ、まだ頭打ちと決まった訳では無いので、もうちょっと学習継続させてみます。今の感じだと、4月に入ってから三駒関係有効で学習開始しても何と…

もうちょっと様子見が最善手かなぁ

現在ssp相手に32勝23敗。頭打ちかと思っていましたが、まだ伸びるかもしれません。 という訳で、当面は現在の学習を継続する予定。 三駒関係有効での学習ルーチンの修正は完了して現在テスト中なんで、伸びなくなったらすぐに切り替えて学習させるつもりです…

VS ssp(本将棋モード)

24時間ほど走らせたパラメータで149勝161敗、勝率48.1%。去年の選手権バージョンよりは強くなってます。 ただ、どうもそろそろ頭打ち感があるので、早々に三駒関係有効にして学習出来る様にしようと思います。

対ssp(5五将棋モード・ハンディキャップマッチ)のベースライン更新

連続対局用サーバを実装したんで、前にプチ将棋を使って対ssp(ハンディキャップマッチ)の勝率75.6%を記録したパラメータでテスト対局。結果、勝率82.0%になりました。 千日手や打ち歩詰めの判定を考慮しても勝率が上がり過ぎているのですが、多分USIモー…

ちょっと修正したら、学習の立ち上がりは上々

PGLeaf+MCからPGLeaf+Q(λ)にアルゴリズムを変更して、昨夜から5五将棋モードで学習中。 現在、55万局経過後のパラメータでsspと対局中ですが、勝率65%前後。学習序盤としては上々の結果です。 このまま順調に強くなってくれれば良いんですが、どこまで伸…

Optimizerの設定、間違ってた

gasyou.hatenablog.jp 昨日はRMSPropと書きましたが、設定を見直したらRMSProp+慣性項になっていました。 …まぁ、強くなってるから良いか。今の学習が頭打ちになったら、RMSPropのみに設定変更して、も一度学習しよう。 ちなみに現在の棋力ですが、164万局…

PGLeaf Dreiの現在の構成

色々やって原型とどめ無くなってきたので、一旦整理。 勾配計算に用いるのはPGLeaf+モンテカルロ法 PGLeaf項はGPWの論文そのまま モンテカルロ項は評価値をシグモイド関数に通して予測勝率に変換し、交差エントロピーを最小化する Softmax方策+αβ探索+線…

Noisy Networkを応用してみたら意外と良い感じになってきた

その論文は読んでないですが概要だけ見ると https://t.co/xgorf3i1Gd https://t.co/JrAKUakySh でやってることと同じように思いました— mooopan (@mooopan) 2018年12月17日 Twitterで@mooopan氏に教えてもらった論文を参考にして、線形の評価関数にノイズを…

ヤバい所の話じゃないかも

ssp相手のスパーリングで、+3000点からの逆転負けとかが非常に多いです。目視している限りでも、負けパターンの半分はそんな感じ。 三駒関係+αの重み*1を色々変えて実験中ですが、現時点でこれでは選手権は絶望的ですね。 …最悪、Depth1で学習したパラメー…

頓死が多い

sspとスパーリングすると、大抵終盤で頓死します。どうも、三駒関係+αの重みが小さ過ぎる様です。 という訳で、駒割以外をもうちょっと重視する様に設定変更して再度学習中。

VS Lesserkai(本将棋モード)

負け無しの53連勝出来ました。 という訳で、現在sspとスパーリング中。

VS ssp(5五将棋モード・ハンディキャップマッチ) 勝率69.6%

http://d.hatena.ne.jp/Gasyou/20171222/1513929159 と同様の学習設定で、王将の移動可能範囲評価を有効にしたもの。対局数は420万局。 結果、683勝299敗で勝率69.6%。僅かですが、着実に成長しています。 んで、自乗誤差の勾配計算ルーチンにバグが有った…

VS ssp(5五将棋モード・ハンディキャップマッチ) 勝率68.7%

まず、王将の移動可能範囲のパラメータの推移が何かおかしかったんで、一旦この評価項目は無効にしてみました。 学習ルーチンは、損失関数は前に書いた設定のままで、勾配ノイズ*1を実装したもの。 んで、結果。667勝304敗で勝率68.7%。勾配ノイズ無しだと5…

VS ssp(5五将棋モード) 勝率65.6%

損失関数を「λ収益*1との自乗誤差+交差エントロピー+PGLeaf+L2正則化」に修正し、132万局自己対局したパラメータ。あ、以前書き忘れていましたが、一時期からL2正則化無効にして元に戻すの忘れてたんで、今回の結果からL2正則化有効に戻ってます。 思考時…

VS ssp(5五将棋モード) 勝率62.9%

損失関数を「報酬との自乗誤差+交差エントロピー+PGLeaf」にしたもので、自己対局数は135万。 結果、606勝357敗で勝率62.9%、過去最高を更新。微妙な向上幅ではありますが。

VS ssp(5五将棋モード) 勝率62.1%

損失関数をλ収益との自乗誤差のみから、自乗誤差+交差エントロピーにしたもの*1に変更して120万局学習させたパラメータ。 結果は609勝371敗で勝率62.1%。思考時間はGA将0.17秒、ssp1秒のハンディキャップマッチです。 …ただ、このバージョンのパラメータ、…

VS ssp(5五将棋モード) ハンディキャップマッチベースライン

一昨日と同じパラメータで、GA将の思考時間を通常の0.1倍にした結果、490勝469敗で勝率51.1%。95%信頼区間は47.9〜54.3。 という訳で、当面はこの設定で勝率上げるのを目標にしていきます。

VS ssp(5五将棋モード) 勝率90%まであと少し!!!

昨夜からの連続対局の結果、845勝110敗で勝率88.5%。今の検証用マシンに移行してからは過去最高の勝率です。 さて、こうなると勝率高すぎて正確な検証が出来ない可能性が出てくるんで、前に実装したハンディキャップモード*1で連続対局させてみますか。 *1:…

VS ssp(5五将棋モード) 最高勝率を更新!!!

先日書いたパラメータで、828勝152敗、勝率84.5%。PGLeaf改を上回ってくれました。 んで、上記パラメータは自己対局91万局なんですが、192万局まで進んだパラメータがあるんで、現在そっちで連続対局中。 まだ対局数が少ないんで何とも言えませんが、指し手…

VS ssp(5五将棋モード)

KKPのバグを潰して、EB-PGLeafで147万局学習させたパラメータ。割引率は1.0。 結果、782勝190敗で勝率80.5%。あっさりと前回UEC杯時のパラメータを超えました。 まぁ、元々2つほどバグが有ったんで、強くなって当然っちゃ当然なんですが。 んで、現在は238…

VS spp(5五将棋モード) 誤差程度しか強くなってない

PGLeafで引き続き学習させたバージョン。 結果は639勝88敗で勝率87.9%。95%信頼区間は85.3〜90.2。 前のやつより0.2%勝率上がってますが、まぁ誤差の範囲内ですね。 とりあえず、このパラメータをベースにして探索パラメータの学習と定跡の構築をやってみ…

VS ssp(5五将棋モード) よーしよしよし、いい感じ

評価関数のバグをFIXしてから、PGLeafで12万3千局学習させたパラメータ。 結果は270勝38敗で勝率87.7%、95%信頼区間は83.5〜91.1。 これ自体はそんなに悪い数字じゃないですし、その後も順調にレベルアップしていますので、今後に期待が持てます。 という…

リファクタリング後のVS ssp(5五将棋モード)

評価関数をリファクタリングしたので、弱くなってないのを確認する為に昨日と同じパラメータで連続対局。 結果、458勝114敗で勝率80.1%。95%信頼区間は76.6〜83.3。 少なくとも、弱くはなってないみたいなんで一安心です。 という訳で、次は現在学習中のパ…

VS ssp(5五将棋モード)

修正した評価関数をPGLeafで学習させたもの。対局数は11万1千局。 結果、310勝86敗で勝率78.3%。95%信頼区間は73.9〜82.2。最初は勝率85%前後で推移してたんで、結構期待してたんですけどねぇ。 ブログに書いてなかったけど、前にTDLeaf(λ)+Experience R…

PGLeafとSR-PGLeafの比較

それぞれ自己対局100万局で学習させた結果の、対sspの勝率です。横軸が自己対局数で、縦軸が対ssp(本将棋モード)の勝率です。 んで、残念ながらPGLeafとSR-PGLeafの差はほとんど無いです。 以前に実験した時は大分差があったと思っていたのですが、たまた…

VS ssp(本将棋モード)

新バージョンのSR-PGLeafでゼロから学習し直したパラメータで、枝刈り全部あり・並列探索で対局させたもの。 結果は262-0-38で勝率87.3%。95%信頼区間は83.0〜90.9。まぁまぁですね。 前は90%前後まで行ってましたが、まぁそれはパラメータファイルを取り…

VS ssp(5五将棋モード)

Windows Updateとかで中断・再開しつつ約2千5百万局経過後のパラメータ。 学習ルーチンは合議用SR-PGLeafで8クライアント。 んで、勝敗。現在21-0-3で勝率87.5%。 …うん、分かってる。明日起きると勝率7割とかになってるって。

あれ?

12万局ほどテキトーに学習したパラメータで、試しにssp(5五将棋モード)と連続対局。 現在12-0-5で勝ち越してます。 sspってこんなに弱かったっけ?