2010-03-01から1ヶ月間の記事一覧
http://wdoor.c.u-tokyo.ac.jp/shogi/view/index.cgi?go_last=on&csa=http%3A%2F%2Fwdoor.c.u-tokyo.ac.jp%2Fshogi%2Ftools%2FLATEST%2F%2F2010%2F03%2F31%2Fwdoor%2Bfloodgate-900-0%2BGasyou_Atom-D510_1c2t%2Bgps500%2B20100331213006.csa 持ち駒たくさん…
正則化係数1e-005のバージョンが、Lesserkai相手に19勝1敗。sspとは勝ったり負けたりで、多分ほぼ互角かちょっと弱い位。 ただ、ところどころ学習不足感があるので、このパラメータで学習用マシンを使って引き続き走らせてみます。
学習を成功させる…のは現状では厳しそうなので、他のところで何とかします。 んで、floodgateのRを見る限り、マシンパワーってのはやっぱり大切みたいです。 そういう訳で、並列化とPonderを実装して、マシンはCore i7 940を投入するかも、です。 Core 2 Duo…
まずおさらいしとくと、一次予選通過数は現状8チームの予定。ただし、明日以降に2次シードチームが棄権すると通過数が増えますので、その辺は流動的。 んで、参加チームリスト。以降、敬称は略させて貰います。 http://www.computer-shogi.org/wcsc20/team.h…
http://pc.watch.impress.co.jp/docs/news/20100331_357926.html 例によって大須では絶対買えないでしょうが、とりあえずリンクだけ。 1ソケットで8コア16スレッドですよ、クロック低いとはいえ、これは楽しそうです。
L1正則化とかペナルティとかって呼ばれてるものと同じ? その辺はよく分かんないですが、とりあえずざくっと実装。 んで、正則化係数のベストな設定が分からないんで、学習用マシンと開発用マシンで2パターン並行して走らせてみます。 …最近、いきあたりばっ…
http://akiba-pc.watch.impress.co.jp/hotline/20100403/etc_amd.html マザーは未登場でCPUだけなんですが、6コアXeonより高性能って話もあるので、ひょっとしたら(秋葉原で手に入る)現状最速のCPUかもしれません。 んで、どうでもいい話ですが、ニコイチ…
昨日は旧バージョンを引っ張り出してそっちで全幅2手で学習させてみたいんですが、それでもどうも弱くなってる気がします*1。 んで、全幅1手でざっと学習→パラメータ引き継いで全幅2手で学習って流れに問題があるのかと考えて、今度は最初っから全幅2手でや…
全幅1手のパラメータを引き継いで学習させてるんですが、日を追うごとに弱くなってる気がします。 なんかバグの予感がするんで、ちょっと調べてみます。
結局パワポで書いてPDFに変換しました。やっぱパワポは楽だわ。
http://www.computer-shogi.org/wcsc20/team.html 特に初参加チームで、みんな色々考えてて面白いです。 あ、芝浦名人将棋はTD(λ)を使った強化学習だそうです。パラメータ固定Bonanza対学習ありBonanzaで対局・学習して、勝率6割まで向上したそうです。 あと…
まず、現在3つの方式での学習を実装しました。 対Bonanza戦でのTDLeaf(λ) 自己対戦でのTDLeaf(λ) 自己対戦でのSelf-Play Bonanza Method んで、今の所2.が一番ましな強さになってるので、選手権まではそれに集中する事にします。1.にもまだ伸びる可能性は感…
対Bonanza戦での学習ですが、グラフを再掲。 (クリックで原寸大表示します) 赤と黄色の系列がそれぞれ先手・後手でのGA将!!!!の勝率なんですが、片方が高い時はもう片方が低い傾向にあります。 これが何を意味しているかというと…何なんでしょうね? 評価…
http://nueda.main.jp/blog/archives/004921.html と言う噂があります。最上位の1090Tが$295だとすると、日本円で2万円代後半になるんでしょうか いくらなんでも安すぎる気がしますが、本当にこの価格なら私も一つ欲しいですね。
対局条件ですが、GA将!!!!は通常の評価項目+探索は全幅2手*1・静止探索4手。Bonanzaは定跡ありで探索深さ3に制限、Resignは3000。Bonanzaの深さは、BonanzaとGA将!!!!で思考時間がほぼ同じになる様に決めました。 (クリックで原寸大表示します) 上のグラ…
定跡を超適当&行き当たりばったりに実装してみた → すぐ定跡外れて役に立たねぇ orz 対Bonanzaでの学習で、初回の学習が終わった(後述) 定跡実装バージョンでfloodgateに参戦(今日の18:30の回から)。パラメータは以前のサルベージバージョン。
いまだに学習の方式すら固まってないという状況。どうしましょうね…
ちゃんと学習出来れば不要なんですが、現状ではどうも怪しいので先回りして実装。 …なんか最近、激しくいきあたりばったりな希ガス。
ちょっと前に書いた自己対戦でのボナメソですが、名前が無いと不便なので「Self-Play Bonanza Method」と名付けました。 んで、基本的に今までのコードの継ぎ接ぎ増改築で何とかなったんで、サクっと実装してじっくりテスト中。
Rは1500後半で落ち着いたんで、多分これ位が本当のRなんでしょう。 となると、Atom-D510とのR差は200ちょいで、これがマシンスペックの差の分ですね。意外とあります。
今日やった事。 Bonanza相手の学習を開始。OK出してくれた保木さんに感謝! 上で書いた、二駒相対の特徴量を修正。 ちょっとだけネチッこくアサーション追加。 千日手の評価値の扱いが変だったのを修正。 んで、学習用マシンと開発用マシンで、Bonanza相手の…
http://journal.mycom.co.jp/news/2010/03/17/050/index.html http://journal.mycom.co.jp/news/2010/03/17/062/index.html デスクトップ向けはCore i7 980X Extreme Editionで、サーバ向けがXeon 5600番台。 選手権までに出る普通のCPUだとこの辺が最上位で…
二駒相対評価の特徴量を少しいじる(遠い駒同士の関係ほど特徴量小さく) 自己対戦の結果からのボナンザメソッド 定跡を実装 一つ目は、二駒相対評価の特徴量を1/距離にすると言うもの。遠い駒同士の関係はあんまり重視しなくていいはずなので、それを反映し…
http://wdoor.c.u-tokyo.ac.jp/shogi/tools/view/show-player.cgi?event=LATEST&filter=floodgate&show_self_play=1&user=Gasyou4_C2D-P8600_2c%2B32b72b907b9de039016540368bce458d 今日メモリを4GBに増設したんで、テストも兼ねて参戦中。しばらくしたら引…
対エンジンでの学習ですが、どうもオーバーフィッティングしている感じがします。対局させてみると、変な駒捨てをしたり、なんだかんだと手が変です。 という訳で、バグってる気がして外してたソフトマックス方策を、デバッグ後に復活させてみます。
困った… NGって返信は一応想定していたけど、返信来ないのは全く想定外でした。 うーん、もうちょっと待って、それでも来なかったらもう一度お願いしてみようかな。
USI表現での手の文字列をGA将!!!!内部のデータ形式に変換するところ(デコード部)で、投了の手のデコードに対応してなかったのが原因でした。 バグの発生率がやけに低いと思ったら、学習が進んで勝てる様にならないと発生しないバグだったみたいですね。 も…
まだバグはありそうですが、とりあえず数十局走らせてもアサーションに引っかからない程度にはなりました。 ただ、CSAからはメールでOKの返信が来たんですが、保木さんへの問い合わせは返信がまだなんで、本番稼動に持っていくのはまだ先になりそうです。返…
http://www.kheh.com/ 昨日書いた京王八王子駅前ホテルにしました。 昨年のスケジュールを見ると一次予選は朝10:00〜だったので、8時半か9時にでもホテルを出れば問題ないでしょう。 会場からはちょっと遠いけど、安いってのは魅力的ですよね。3泊で13,800…
昨日まではプロセス間通信の下位のレイヤーからやってたんで、今日は最上位になるTDLeaf(λ)クラスの修正。 情報取得・表示系でのちょっとした問題はあったものの、他はほぼ問題なく修正完了。割と順調です。 まぁ、コーディングが順調でも学習が問題だらけだ…