2012-08-01から1ヶ月間の記事一覧
実装中というか、水曜日辺りから着手してようやくエラーで落ちずに対局出来る所までは来ました訂正:アサーションを有効にすると落ちまくります。ただ、NPSが100k台から10k強にガタ落ちなんで、まだαβより遅いですが。 とりあえず、実装してみて分かった事を…
147-4-165で勝率47.1%、95%信頼区間は42.0〜49.3。微妙に勝率上がってはいますが… このまま学習を続けて、どこまで伸びるか見てみる事にします。なんせ、まだ12万局程しか学習していないので。最低20万局位はやらせたいですね。
ABC探索は難しいんで、以前やった事のあるMTD(f)にも一度手を出そうかと考えています。 んで、とりあえず論文(http://people.csail.mit.edu/plaat/mtdf.html)読みつつ実装案を検討中。 MTD(f)は*1は結構デリケートな感じなんで、色々注意しないと危険です…
昨日からやってた結果。 最終的に337-8-402で勝率45.6%、95%信頼区間は42.0〜49.3になりました。 勝率60%を超えたらfloodgateに投入したいんですが、まだ先は長そうです。
20連勝しました! 学習は方策勾配法・全幅深さ1手で行い、約11万局学習したものです。 ある程度強くなってはいるらしいので、今度はssp相手にスパーリングさせてみます。
一晩分の実験データがパーですよ、パー。 _| ̄|○
魔法少女リリカルなのは The MOVIE 2nd A's Original Soundtrackアーティスト: サントラ出版社/メーカー: キングレコード発売日: 2012/07/14メディア: CD クリック: 15回この商品を含むブログ (12件) を見る 買ったんですが、冷静に考えて魔法少女物のサント…
terminate関数あたりが怪しい気がしますが、ちゃんと擬似コード通り(というか、ほぼそのままパクって)書いたつもりなんですけどねぇ… 一応原因は分かっていて「深く読むとルートの評価値が+200になるけど、再探索すると一手指しただけで終端&βカットして…
ルートノードでαβウィンドウの幅を歩4枚分にして探索すると、Fail-Lowした後の再探索でFail-Highしたりするし… どっか実装が間違ってる可能性が高いんで、も一回進歩本の4巻を読み直してみますか。
とりあえずシングルスレッド性能とコストパフォーマンス重視だと、Core i7 3770Kにメモリ32GBって辺りが狙い目かな。メモリは(当面は)そんなには要らないけど、後で必要になる場合に備えてたくさん積みたいですし。 現在の開発・学習用マシンはCPUがi7 940…
昨夜から今朝までの分で、対局数は340。 結果は221-0-119で勝率65.0%、95%信頼区間は59.7〜70.1。前よりやや弱くなっていますね。 んで、TDLeaf(λ)・方策勾配法で深さ0〜2までのデータが揃ったんで、表にまとめてみます。全部5五将棋で、対sspの勝率です。…
方策勾配法・全幅2手で約6万4千局自己対戦学習したパラメータです。 結果は150-0-67で勝率69.1%、95%信頼区間は62.5〜75.2。前回の結果とほぼ同じですね。 これで頭打ちかどうか気になるので、更に1万2千局学習させたバージョンで一晩やらせてみます。
http://www.sgtpepper.net/kaneko/diary/20120511.html の山下@YSSさんのコメントの案です。 _ 山下@YSS (2012-05-15 20:24) floodgateの対戦の組み方ですが今の勝ち抜きトーナメント?形式はちょっと対戦相手がかたよる傾向があると思います。YssL980X_1c…
5五将棋の連続対戦はプチ将棋を使わせてもらってますが、以前のバージョンではバグか仕様かで打ち歩詰めは反則負けにならない様になっていた記憶があります。 で、それに合わせて探索ルーチンの方も5五将棋モードの場合は打ち歩詰めは単なる「勝ち」として評…
打ち歩詰め判定ルーチン絡みのバグっぽいけど、どこが原因だろう…
方策勾配法・全幅深さ2手で2万6千局のやつ。 結果は188-?-177で勝率51.5%、95%信頼区間は46.2〜56.7。まだ収束していなから弱いって事でしょうか。 今度は今朝まで学習させたパラメータ(約4万4千局)で連続対戦させてみます。
結局378-?-183で勝率67.4%、95%信頼区間は63.3〜71.2になりました。 勝率が7割超えなかったのは残念ですが、そこそこ強くはなってますね。 んじゃ次は方策勾配法・全幅深さ2手のパラメータで一晩やってみますか。対局数がまだ2万6千局なんで、多分弱いとは…
昨夜から方策勾配法・全幅深さ1手で17万局程学習させたやつ。 現在ssp(5五将棋モード)相手に71-?-22で勝率76.3%。95%信頼区間は66.4〜84.5なので、全幅0手より確実に強いですね。 運良く強いパラメータの時に学習を打ち切ったせいかもしれませんが、ここ…
方策勾配法・全幅深さ0で65万局程学習させたバージョン。 283-?-280で勝率50.3%、95%信頼区間は46.1〜54.5。 TDLeaf(λ)で全幅深さ0よりは強いですが、まだまだって感じですね。
217-?-215で勝率50.2%、95%信頼区間は45.4〜55.0でした。 うーん、学習進めるほど弱くなるってのは困った現象ですね。どうしたもんか。
とりあえずやりたい事。 方策勾配法のテスト 合議とTDLeaf(λ)/方策勾配法を組み合わせてみる 評価関数の改良(正則化かベイズ回帰を導入) 自己対戦学習時にABC探索を使ってみる 本将棋でテスト とりあえずは上から順番にやってみようかなぁ… あ、さっきか…
昨夜まで約10時間、4万局程学習させたバージョン。TDLeaf(λ)で学習条件は探索が全幅2手+静止探索4手。目標探査率は5%。 で、勝敗は315-?-193で勝率62.0%、95%信頼区間は57.6〜66.2。大分強くなりました。 記念に駒割のパラメータの変化のグラフをアップ…
結局、上で書いたのは162-?-195で勝率45.4%、95%信頼区間は40.1〜50.7になりました。 …ふぅ、困った。なんでパラメータ引き継ぐと弱くなるかなぁ…
全幅1手のパラメータを引き継いで全幅2手で学習させたバージョンですが、現在対ssp(5五将棋モード)で38-0-50の勝率43.2%。95%信頼区間は32.7〜54.2。明らかに弱くなってます。 …パラメータ引き継ぎがまずい可能性もあるんで、全幅2手でパラメータの引き…
昨日10万局程学習させたバージョンで、全幅深さは1、静止探索4手。 んで、結果は350-?-294で勝率54.3%。95%信頼区間は50.4〜58.2。 これなら、旧バージョンでの結果にほぼ追い付いたと考えていいかもしれません。(以前は確か勝率60%前後でした。) さて…
結局、90-0-152で勝率37.2%、95%信頼区間は31.1〜43.6になりました。意外というかやっぱりというか、対局数増やすとやや勝率落ちましたね。 んで、今度は全幅深さを1にしたものが対局数10万を超えたんで、こっちで連続対戦させてみます。
TDLeaf(λ)+ソフトマックス方策で、一部の手で勝ちを読み切った時にそれ以降の手の評価値が変になるというバグを発見。 で、早速潰して全幅探索深さ0で5五将棋をサクッと10万局程対局・学習させて、現在sspと連続対戦中。 GA将!!!!!!側から見て32-0-45で勝率…