2009-02-01から1ヶ月間の記事一覧
αβと大して速度は変わらず。ついでに、連続対戦時は評価関数内で評価値に乱数を足していたけど、それがMTD-∞と相性悪い*1ので、結局αβに戻しました。 と言うか、MTD自体よりも、それ対応の為に「最初4手(先後各2手)はランダムに指す」っていうルーチンが適…
っていう会話をしていると混乱しそうになりました。それだけ。
評価項目の多い(重い)評価関数で、評価項目の少ない評価関数用のパラメータを使ってました。そりゃ弱くなるわけだ。
マイムーブさんのブログを見て思い出しました。すっかり忘れてましたよ、危ない危ない。 申し込んだのは初日〜最終日の昼の弁当とパーティー。 夜は有志で集まってどこか行くでしょうから、弁当は無し。パーティーは安かったんで即決(去年までは結構悩んで…
昨日の夜から続けてやってた結果です。勝率64.5で95%信頼区間が60.5〜68.4。さらに下がってる orz まぁ、今の段階で数%の上下を気にしててもあんまり意味がないんで、とりあえずこの位の強さだと思っときます。 んで、今週末は探索関連をいじる予定。SEEで…
まずは短期。 探索ルーチンの修正 SEEでオーダリングを試してみる MTD-∞ ちゃんとプロファイルとる 中期。選手権まで。 将棋の学習関連 TDLeaf(λ)エージェントを再実装。 方策をエージェントから独立させる。 学習中の各種統計情報の収集・表示ルーチン実装…
勝率66.2%で95%信頼区間が60.6〜71.5。って、昨日より勝率下がってますね。 うーん、どうしよう。追加した分の評価項目は外すかこのままか… とりあえずは全項目ありで学習させて、無い方が強くなる項目は後で外しましょう。
上で書いた評価項目の追加+ログ出力を少し追加。 パラメータは持ち越さずに、まっさらの状態から学習させる事にしました。どうせ駒割+位置評価etcしか学習してなかったんで、やり直してもすぐでしょうし。 にしても、学習が上手く行くと自分の作業量は一気…
昨夜一晩からの学習分で、特徴の数は5200ちょっとでした。これは、実際に学習した(パラメータの値を1回以上更新した)特徴の数です。さらに前日のは5000ちょっとだったので、ほとんど増えてないです。 で、一気に評価項目を増やして様子を見ます。今までは…
ちょうど333戦ですが、狙ってやった訳ではないです。 id:ak11さん作の勝率計算機では95%信頼区間が62.9〜73.1。これは、「本当の勝率がこの範囲以外である確率は5%しかない」って理解すればいいのかな、多分。 とりあえずもうちょっとLesserkai相手にスパー…
http://pc.watch.impress.co.jp/docs/2009/0226/kaigai492.htm Larrabeeを載せればCPUとGPUを一つのチップで済ませれるって話ですが、それはそれで面白そうですねぇ。 細かい事は抜きにして、そういう楽しそうな事はどんどんやって欲しいです。
さっきとは別のパラメータ(2時間余分に学習したやつ)ですが、そっちでもちゃんと強いままです。 前は学習すると弱くなったりしてたんで、それを考えるとだいぶマシになってます。 まぁ、まだ7局しか指してないんで、それだけで判断するのは早計ですが。
id:issei_y:20090224:1235460854の下のグラフがかっこよかったので、真似をして表示させる為のプログラムを作ってました。 てか、それくらいなら何かのソフトで楽に出来そうなのに、何やってるんだ、自分。 それから、学習用マシンには駒種と利きの数の評価…
気になって開発に集中出来ないんで、連続対戦は一旦中断します。
VS Lesserkaiで、相手の角成りを防がなかったり歩を捨てたりと意味不明な手を指してると思ったら、なんかよく分かんないうちに勝っちゃいました。 うーん…もうちょっと対局数増やしてみますか。でないと判断出来ませんし。 一応棋譜。 先手:Gasyou3 後手:L…
今日やった事。 直線探索を実装して、学習率の設定が楽になった。 駒割の重みの変化をファイルに書き出す。あわせて、ログ出力関係の追加。 昨夜からの一晩分のパラメータだと、学習率が高すぎる様な傾向だったので、今度は学習率を低めに設定して一晩走らせ…
ガウス正則化は挙動が怪しいんで外しました。後でちゃんとパラメータを調整してからリトライします。 他は細々した表示やログの出力を追加して、後は一晩動かした結果次第で明日の開発の方向を決めます。 あ、一晩学習したパラメータは弱かったです。どうも…
ダメ人間まっしぐらです orz 一応、ルートノードでの枝刈りのパラメータ修正はやったので、その結果だけは後で見てみます。 ログ出力まわりの整理 評価関数の再実装 ついでに王将との相対位置評価を実装 ルートノードでの枝刈り とりあえず駒割の重み推移だ…
砂場で調整したメタパラメータを実戦で使おうってのがムチャなんじゃないかと思った。 …というか、実際に文字にしてみるとどう考えても無謀です本当にアリガトウゴザイマシタ。
酔って書いてるんで、多分色々間違ってますが。 学習をあきらめるリミット(この時点で出来てなかったらパラメータ手打ち)を決める 直線探索の実装(短時間で出来そうだから) 「常に人間の棋譜の手を指す方策」での学習を試す とりあえず駒割の重み推移だ…
複数の対局を並行して走らせるだけなんで、コーディングの難易度は低いです。少なくとも、探索の並列化よりははるかに楽。 ただ、実際に速くなってるかはこれから検証しなきゃいけないんで、むしろ今からが山場です。 で、今日は実装したコードは置いといて…
http://av.watch.impress.co.jp/docs/20090220/king.htm 第一部のBlu-rayが5/27発売で、6/27には第二部が公開だそうです。 とりあえず映画は見に行くとして、Blu-rayはどうしようかなぁ…値段次第で買うかも。
まだ、対局と学習を複数スレッドで並行してやってるだけで、学習中の情報表示は最小限(単位時間あたりの対局数のみ)、パラメータのセーブ機能無しですが。 んで、対局数はCore 2 Extreme QX6700で4〜8万局/日ってところです。Core i7なら10万行くかどうか…
まずは短期。 ログ出力まわりの整理 評価関数の再実装 ついでに王将との相対位置評価を実装 【保留】ルートノードでの枝刈り マルチスレッド化 探索ルーチンの修正 ちゃんとプロファイルとる 上の結果次第で、二駒の相対位置関係のチューニング 選手権までの…
昨日書いたエラーチェックですけど、なんか100局位指した後に引っかかってました。 探索のログを見るとハッシュの値でβカットした場合に起きてるッポイけど、正常な動作の様な気が… まぁ、100局以上はエラーになってなかったから、そうそう頻発する様な問題…
今まではmain()関数内で対局の処理を色々やってたんですが、複数の対局を並行して走らせるならクラスにまとめた方が楽なんで、その辺の作業を細々と。 明日には(一応)並列化は終わると思うので、その後はチューニング。 それから、上で書いたチェックに引…
で、探索した評価値と、PVを下って行った局面での評価値を比較すると http://d.hatena.ne.jp/mkomiya/20090217/1234873196 そういうチェックはしてなかったので、早速実装しました。ありがとうございます。
評価関数は元に戻して、駒割・位置評価色々+駒の自由度・利きの数に絞りました。それに合わせて、探索は静止探索4手に。 今からマルチスレッド化するので、比較の為にシングルスレッドで動作させます。 1時間ごとにそれぞれ別のファイルにパラメータを保存…
とりあえずは並列化に再挑戦する予定で、今日はその為の準備とか色々。 以前は一つの対局内で並列化していましたが、今度はシングルスレッドで動作する対局をコア数分並行して走らせる予定。評価関数は全体で一つにして、学習時だけロックする方式で考えてい…
評価項目を全てありに 静止探索1段目を4手→1手に 温度を0.013→0.0005に まず、重い評価関数で浅く読んでみたらどうなるか知りたかったので、評価項目と探索深さを変更。 それから、探査率(探索して得た最善手を指さなかった割合)を表示させてみたら値が高…