GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2014-12-01から1ヶ月間の記事一覧

再びバグの香り

5五将棋で学習させたパラメータを使ってssp(5五将棋モード)と連続対戦中なんですが、変な現象が。 まず、対局開始から35連勝して、その時点では勝率の95%信頼区間は90.0〜100.0。 で、そのまま一晩走らせると638-0-95で勝率87%、95%信頼区間は84.4〜89.…

駒の前進ボーナスにリトライ

前にも何回かやって、その度に失敗している「駒の前進ボーナス」ですが、懲りずにリトライ。 これが成功すれば攻めっけ100%の棋風になるはずなんで、期待しています。 んで、SR-PGLeafでボーナスをちゃんと扱う様に修正して、軽くテスト完了。 とりあえず問…

第25回世界コンピュータ将棋選手権

http://www.computer-shogi.org/wcsc25/ 参加者募集が開始された様です。 私はとりあえず申し込みましたが、現時点で前回選手権からの改善点はゼロ。やヴぁいです。 とりあえず、今やってる正則化係数の調整が上手く行ってくれれば、多少は強くなるはずなん…

困った

自己対戦学習時の全幅部分の探索深さによる棋力の変化を調べてみました。 条件は、探索深さのみ変更して、それ以外のメタパラメータは同じ。対局数は50万局です。 で、ザックリ結果を書くと1手〜3手で優位な差はありませんでした。強くも弱くもなってないで…

実はバグってなかった?

バグかと思ってた現象は、実はそれで正常でしたというオチが待ってました。 ま、たまにはこういう事もありますよね。

方策バグってる疑惑(二回目?)

統計の取り方に問題があるのか、本当にバグってるのかは不明ですが、とにかくおかしな現象が起きています。 …と言いつつ、取り方に問題があるってのが今までのケースですが。 ま、とにかく調査してみて、問題の有無を見極めるのが先決ですかね。

ハスにゃん入院

えー、ブログにはちゃんと書いてなかったんですが、Haswell-EことCore i7 5960X買いました。先週末に。 で、早速九十九電機に入院(トラブル対応)する事になりました _| ̄|○ 現象としては、 GA将!!!!!!!!の学習ルーチンを走らせると、OSごと落ちる。 Memte…

このコードを書かなかったのは誰だーーーッッ!!!!!!!!!!!!

えー、三駒相対を実装した際に、差分計算の初期化コードを書いていなかったのが今日になって発覚しました。 実装したのは11月15日なので、約1ヶ月間潜伏していた事になります。 で、初期局面だと三駒相対の評価値合計がたまたま0だったので今まで気付いてな…

Bonanza風のKKP,KPP実装しようかな

とりあえず今の評価項目に追加する形で検討中。 メモリに関しては、パラメータをfloat型にすれば2.6GBほどで収まるので、割とリーズナブル。 まぁ、まずは正則化のメタパラメータ調整してからですね。

盛大に バ グ っ て た !!

えー、評価関数のパラメータ修正後に置換表のデータをクリアしていなくて、修正**前**の評価値を参照・再利用していました。 多分、序盤〜中盤の頻出局面でしか影響は無いはずですが、一応修正してテスト中。

VS ssp(5五将棋モード)

サンプル数*1100局で35万局ほど学習したパラメータ。ランダムオープニングは無効です。 んで、結果。442-0-65で勝率87.2%、95%信頼区間は84.0〜90.0。 割りかし良い感じですので、今度はサンプル数を1000局で50万局学習したバージョンを試してみます。 *1:…

今日の修正内容

SR-PGLeafのサンプル数*1を100局から1000局に変更 静止探索の枝刈りで、SEEの計算方法を変更 後なんかあったっけな? 今日は学習用マシンの世話ばっかしてたから、あんまプログラムはいじってないはずだけど… *1:パラメータを修正する間隔

VS ssp(5五将棋モード)

色々やったんでまとめて。 まず、従来の(静止探索中で枝刈りしないバージョンの)探索ルーチンでペナルティ無し。これがベースライン。 結果は742-19-239で勝率75.2%。95%信頼区間は72.8〜78.3。 それから、静止探索ではSEEが負の手は読まない様に改良し…

静止探索の枝刈り

今までの静止探索は、KFEnd流の2段階探索でした。一段目は取る手と成る手全てで深さは6手まで、二段目は直前の移動先での取り合いだけを探索します。 んで、試しにSEE負の手は無条件に読まない様にして、一段目の深さを32手(実質的に無制限と同じ)にしてみ…

探索パラメータ学習は一休み

どうも、評価関数が不安定でイテレーションごとに激しく評価値・PVが変動しているのが良くないみたいです。そのせいで、枝刈りが有効に機能していない、と。 という訳で、Bonanza方式のペナルティ項を導入して学習にリトライ。 コード自体は前に書いてあった…