GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2010-08-01から1ヶ月間の記事一覧

う〜ん…

パラメータ修正時に、評価関数をロックしてる間に探索もやってるもんだから、CPU使用率が残念な事になってます。平均だと40%切るかも。 かなりもったいないんで、何か対策考えないと。

今日やった事まとめ

上で書いた修正は、やっぱりと言うか何と言うか、例によってバグ持ちでした。 んで、ちょこまかとバグを潰しつつ他のことも。 学習率を0.001から0.01に上げる。 王手0.5手延長、recapture0.5手延長(これらの効果は重複有り)。 方策内部でのムーブオーダリ…

学習ルーチンをちょっと修正

まず、学習前後の評価値と誤差の変化を見てみました。 すると、序盤は誤差の減少が少なく、終盤に近付くにつれて学習率以上に大きくなっていました。 これは、序盤から順にパラメータを修正していくので、終盤の修正の頃には序盤〜中盤の修正の影響で、修正…

探索深さを2にするとちゃんと学習しない理由

仮説その1 深さが偶数だとNG 理由は置いといて、深さが奇数だと上手く行く、偶数だと上手く行かないってパターン。 方策内部で更に一手全幅で読んでるんで、深さが偶数だと自分の手番で探索を打ち切ります。そうすると、自分の方だけ一手余分に読めるんで、…

YSS-1sって何だろう

http://wdoor.c.u-tokyo.ac.jp/shogi/view/show-player.cgi?event=LATEST&filter=floodgate&show_self_play=1&user=YSS-1s gps500とかGasyou_Atom-D510_1c2tにちらほら負けているけど、それ以外には結構強いし、本物のYSSの一秒将棋モード? うーん、気にな…

VS ssp(本将棋モード)

探索深さを2にして、パラメータ引き継ぎで学習したやつ。 結果は39-1-204で勝率16.0%。95%信頼区間は11.7〜21.3。 問題外なほど弱くなってます orz

VS ssp(本将棋モード)

ソフトマックス方策で目標探査率0.1、探索深さ1に設定して一晩走らせたやつ。 結果、116-1-186で勝率38.4%。95%信頼区間は32.9〜44.2。 まだまだ弱いけど、このパラメータを引き継いで探索深さ2で走らせてるのがあるんで、それでどれだけ強くなるのか。今…

VS ssp(本将棋モード)

ε=0.5で学習したやつ。 結果は107-5-291で勝率26.9%。95%信頼区間は22.6〜31.5。 まぁ、なんと言うか…弱いです。

VS ssp(本将棋モード)

選手権時のパラメータファイルで、現在の探索ルーチン・評価関数・対局条件だとどうなるかを調べてみました。 んで、結果。195-5-148で勝率56.9%。95%信頼区間は51.4〜62.2。 以前は70%位だったはずですが、今は並列化してないんでこんなもんでしょうか。

GA将!!!!!には何が足りないのか考えてみた

とりあえず、ちゃんと攻めてちゃんと囲って欲しいんで、それに足りないのは何か。 仮説その1 評価関数 OR 探索の能力不足 以前にBonanza Methodで学習した時は、今とほぼ同じ評価関数・探索ルーチンでちゃんと囲うし攻めてたんで、この可能性は低い。 仮説そ…

BulldozerとBobcat解説記事 @ PC Watch

http://pc.watch.impress.co.jp/docs/column/kaigai/20100827_389491.html 注目は最後の方の記述で、Intelの6コアCPUに対してAMDはBulldozerの8コアCPUを投入すると書かれています。 つまり、今ではAMDから全く商品の出ていないハイエンドCPUが、久々に復活…

floodgateに何か出したい

出したいけど、ネタが無い orz TreeStrap(αβ)で学習するやつでも作って出してみるか? でも、自己対戦でのTreeStrap(αβ)すら成功してないってのに、いきなりfloodgateでやってもダメだよなぁ… うーん、やっぱりTDLeaf(λ)でちゃんとしたのが出来るのを待つか?

k-確実探査法の論文

k-確実探査法 : 強化学習における環境同定のための行動選択戦略という論文が面白そうだったので、購入して読んでみました。 んで、オーソドックスなQ-learningより優秀という結果だったんですが、コンピュータ将棋に応用するには一つ大きな問題が。 行動の種…

とりあえずやるべき事

まずは自己対戦での学習に集中するとして、その辺の環境整備とか。 自己対戦時に探索を深くするとなぜか弱くなる件の調査 全自動で他のエンジンと連続対戦して強さを計測する環境の整備 自己対戦での学習を成功させる ABC探索 相手番に対局中の局面から自己…

うーん、難しい

ボナンザのソースコードが公開されたことで、かなりの人数の開発者は、コンピュータ将棋の開発に興味を失ってしまったのではなかろうか。私も、その一人になりそうだ。 ポンコツ車を如何に改造しても、現実的には、とてもスポーツカーには、かなわない。いっ…

ε=0.5だと収束が遅い orz

まぁ、ゆっくりやりますか。

αβの再実装完了

ちょっと前からαβ探索ルーチンを書き直していたのですが、それが終わったんで実戦投入。今までは学習と対局で別のルーチンを使っていたのですが、これで共用に出来ました。 それから、評価項目追加はあまり成果が出なかったんですが、とりあえず悪さをしてい…

ソフトマックス戦略を用いた多数決合議

今までは各弱エンジンが一票全てを最善手に投じていましたが、別に一票全部を一つの手に集める必要は無いんじゃないかと思って。 んで、強化学習で使うソフトマックス戦略を用いて、ルートノードでの各手に対して、その選択確率に応じた票を投じるってのを考…

プロ棋士VSコンピュータ将棋の特設ブログが出来ていました

http://blog.livedoor.jp/aishougi/ 「あから2010」の命名にまつわる裏話とかも書いてあり、ちょっと興味深いです。

合議は一時中断

まずはシングルエンジンで強くするのを目標にしてみます。 んで、とりあえずノイズ付加探査をリトライ。今までは全パラメータにノイズを加えていたのを、筋・段個別の絶対位置評価にしぼってノイズを加える様にしてみました。これなら使用頻度の高いパラメー…

評価項目の追加(王将より内側にいる駒の評価)

上に書いたやつを実装してみました。処理対象の駒は「王将より内側(王将が7筋なら1〜7筋)かつ自陣〜5段目までの全ての駒」で、駒の種類・枚数ごとに加点しています。 NPSの変化は通常使用の一番重い設定で169k→165k、一番軽い設定だと372k→427kでした。軽…

ちっとも囲ってくれないので

評価項目を追加しようかと検討中。 現在最有力なのは、どっかで見た「王将より盤の内側にいる駒の数・種類」っての。これなら、王将が端に寄ってから、その内側に駒を集めてくれないかなぁ、と。駒の配置は二駒の相対位置関係で何とかしてくれるはず。 とい…

VS ssp(本将棋モード)

132-0-182で勝率42.0%。95%信頼区間は38.5〜47.7。 一応、ムーブオーダリングの高速化の弊害は無さそうな感じです。// って、よく考えると誤差程度に弱くなってる。意味ねぇ…

ムーブオーダリングの高速化

今まではライブラリにあるqsort関数を使ってソートしてたんですが、どうも重いので自前でマージソートを実装。 んで、適当に選んだ終盤の入り口くらいの局面だと、NPSが450k位→650k位に向上(一番軽い評価関数で)。 まぁ、多少は高速化出来たみたいです。あ…

VS ssp(本将棋モード)

146-1-194で勝率42.9%。95%信頼区間は37.6〜48.4。 以前よりは多少強くなってますが、まだまだですね。 うーん、一回、学習まわりを実装し直すか? 後は序盤のうちに各評価関数が異なった手を選ぶ様に工夫するとか…って、それはそう簡単には行かないか。 …

今後の方針の再確認

色々考えている事はあるのですが、場合によっては迷走しかねないので確認として書いておきます。 自己対戦での評価関数パラメータの自動学習を主軸に置く これは外せません。TDLeaf(λ)にしろTreeStrap(αβ)にしろ、どっちを使う場合でも基本は自動学習で、っ…

VS ssp(本将棋モード)

選手権と同じ評価関数で合議用に学習したパラメータのやつ。探索はシングルスレッド・非合議。 んで、結果。260-6-613で勝率29.8%。95%信頼区間は26.8〜32.9。 合議にした方が勝率伸びるものの、まだ大幅に強くなってるとは言いがたいです。 8日間学習した…

VS ssp(本将棋モード)

結局321-7-517で勝率38.3%。95%信頼区間は35.0〜41.7。 まだまだ弱いですorz

VS ssp(本将棋モード)

現在9-0-7。意外と強いです。 ひょっとして、本将棋の方が合議の効果が高い?

VS ssp(5五将棋モード)

302-?-529で勝率36.3%。95%信頼区間は33.1〜39.7。 例によって誤差程度の違いですね。うーん…