2014-01-01から1年間の記事一覧
5五将棋で学習させたパラメータを使ってssp(5五将棋モード)と連続対戦中なんですが、変な現象が。 まず、対局開始から35連勝して、その時点では勝率の95%信頼区間は90.0〜100.0。 で、そのまま一晩走らせると638-0-95で勝率87%、95%信頼区間は84.4〜89.…
前にも何回かやって、その度に失敗している「駒の前進ボーナス」ですが、懲りずにリトライ。 これが成功すれば攻めっけ100%の棋風になるはずなんで、期待しています。 んで、SR-PGLeafでボーナスをちゃんと扱う様に修正して、軽くテスト完了。 とりあえず問…
http://www.computer-shogi.org/wcsc25/ 参加者募集が開始された様です。 私はとりあえず申し込みましたが、現時点で前回選手権からの改善点はゼロ。やヴぁいです。 とりあえず、今やってる正則化係数の調整が上手く行ってくれれば、多少は強くなるはずなん…
自己対戦学習時の全幅部分の探索深さによる棋力の変化を調べてみました。 条件は、探索深さのみ変更して、それ以外のメタパラメータは同じ。対局数は50万局です。 で、ザックリ結果を書くと1手〜3手で優位な差はありませんでした。強くも弱くもなってないで…
バグかと思ってた現象は、実はそれで正常でしたというオチが待ってました。 ま、たまにはこういう事もありますよね。
統計の取り方に問題があるのか、本当にバグってるのかは不明ですが、とにかくおかしな現象が起きています。 …と言いつつ、取り方に問題があるってのが今までのケースですが。 ま、とにかく調査してみて、問題の有無を見極めるのが先決ですかね。
えー、ブログにはちゃんと書いてなかったんですが、Haswell-EことCore i7 5960X買いました。先週末に。 で、早速九十九電機に入院(トラブル対応)する事になりました _| ̄|○ 現象としては、 GA将!!!!!!!!の学習ルーチンを走らせると、OSごと落ちる。 Memte…
えー、三駒相対を実装した際に、差分計算の初期化コードを書いていなかったのが今日になって発覚しました。 実装したのは11月15日なので、約1ヶ月間潜伏していた事になります。 で、初期局面だと三駒相対の評価値合計がたまたま0だったので今まで気付いてな…
とりあえず今の評価項目に追加する形で検討中。 メモリに関しては、パラメータをfloat型にすれば2.6GBほどで収まるので、割とリーズナブル。 まぁ、まずは正則化のメタパラメータ調整してからですね。
えー、評価関数のパラメータ修正後に置換表のデータをクリアしていなくて、修正**前**の評価値を参照・再利用していました。 多分、序盤〜中盤の頻出局面でしか影響は無いはずですが、一応修正してテスト中。
サンプル数*1100局で35万局ほど学習したパラメータ。ランダムオープニングは無効です。 んで、結果。442-0-65で勝率87.2%、95%信頼区間は84.0〜90.0。 割りかし良い感じですので、今度はサンプル数を1000局で50万局学習したバージョンを試してみます。 *1:…
SR-PGLeafのサンプル数*1を100局から1000局に変更 静止探索の枝刈りで、SEEの計算方法を変更 後なんかあったっけな? 今日は学習用マシンの世話ばっかしてたから、あんまプログラムはいじってないはずだけど… *1:パラメータを修正する間隔
色々やったんでまとめて。 まず、従来の(静止探索中で枝刈りしないバージョンの)探索ルーチンでペナルティ無し。これがベースライン。 結果は742-19-239で勝率75.2%。95%信頼区間は72.8〜78.3。 それから、静止探索ではSEEが負の手は読まない様に改良し…
今までの静止探索は、KFEnd流の2段階探索でした。一段目は取る手と成る手全てで深さは6手まで、二段目は直前の移動先での取り合いだけを探索します。 んで、試しにSEE負の手は無条件に読まない様にして、一段目の深さを32手(実質的に無制限と同じ)にしてみ…
どうも、評価関数が不安定でイテレーションごとに激しく評価値・PVが変動しているのが良くないみたいです。そのせいで、枝刈りが有効に機能していない、と。 という訳で、Bonanza方式のペナルティ項を導入して学習にリトライ。 コード自体は前に書いてあった…
一応動く所までは来て、5五将棋でテスト中。 んで、現在3手+静止探索で学習した結果、枝刈り無しとの一致率90%・高速化率5.7倍*1になりました。 ただ、まだ全然深く読めないので、いろいろ試行錯誤している所です。 目標は「5五将棋の初期局面で、2秒以内…
一応テストして、ちゃんと動く・テスト用関数で収束するのを確認。 んで、メタパラメータと目標関数を少し修正して学習用マシンに投入。 開発用マシンでは、並行してアサーション有効で一晩走らせてみますか。
とりあえずを実装する事にして、論文の該当箇所は読みました。 今日中にテスト・デバッグを済ませて、探索パラメータ学習をさせつつ寝たいですね。
上で書いたrastrigin関数で収束しない現象ですが、数式に間違いがあっただけでした。 んで、テスト関数では学習が上手く行くけど探索パラメータの学習はNGなので、探索部分にバグが有る可能性大です。 つー事で、ログ出力は後回しにしてデバッグしてみます。
ログ出力機能を実装。 rastrigin関数でちゃんと収束しない原因を調査。 ログは、適応度の平均・最大値と各パラメータの平均・エースの値を出せばいいかな。 二つ目の収束しないのは、まずは論文のメタパラメータと値を揃えてテストしてみますか。
昨日書いた論文の手法ですが、一応それなりに動くようにはなりました。 試しに、論文で使用されているテスト関数の最適化は、論文とほぼ同じ結果が再現出来ました。 んで、そっから5五将棋での探索パラメータ調整をさせると、何故かちゃんと動かない… 探索ル…
実数値GAのフロンティア 各種関数での最適化実験・考察がしっかりされてて、読んでいてさすがと関心しました。 んで、提案手法についても(多分)理解出来たので、これから実装してみます。 は実装が難しそうですし、今の私の条件では不要そうなので、を試し…
いえ、細かいバグを潰したりはしたので完全に0ではないですが、ほぼ進展無し。 唯一の成果は、Fail-Lowした後にFail-Highする現象が「仕様」だと判明した事位ですね。 んで、GAで探索パラメータの調整をしてみるとどうなるか興味があるんで、今日はその準備…
二つ上ですが、5五将棋での結果でした _| ̄|○ 本将棋の初期局面だとこんな感じ。137秒で20手。 後10倍程度高速化して、20手を10秒で読める様にしたいなぁ。 どうも、読みの深さによって評価値が激しく上下してるから、それを押さえ込めれればなんとかなる……
探索木のログを眺めてるんですが、正常な動作と異常な動作が区別付かない… もう今日は無理ッス。おやすみなさい。
記念にログ。 doIterativeDeeping() > time==0.00, 197.2kNPS, depth==1, window==(-1e+008,1e+008), score==0.032901, Exact. doIterativeDeeping() > time==0.01, 13.2kNPS, depth==2, window==(0.0309777,0.0348236), score==0.028939, Fail-Low. doItera…
スマホのブラウザはOpera Mobile Classicを愛用していたんですが、Lolipopは非対応らしいです。 で、代替のブラウザを探したんですが、Opera Mini以外に有望な選択肢は無し。 ただ、ClassicとMiniでは微妙に操作感が違うので、結構ストレス溜まります。 つー…
…ログ出力のコードをベタベタ書いただけですが、早速心が折れました。 という訳で、今日の開発はこれまで! 風呂入って寝ます。
ただ、学習完了は明日夜以降になりそうなので、今日は帰ったら探索に手を入れますか。 とりあえず、Stockfish風の探索ルーチンにPV取得とログ出力を実装して、テストするのが先決かな。 初期局面で妙な現象があったんで、まずはその辺から調べますか。
Nexus 5(EM01L)にAndroid 5.0 Lolipop更新通知来た!!!! よし、帰ったら早速アップデートしよう。