2010-06-01から1ヶ月間の記事一覧
評価項目を駒割+絶対位置評価+王将の移動可能範囲(距離3まで)に絞って、これでどこまで強くなるかテスト。 方策はソフトマックスに戻して、ノイズ付加探査は無しにしました。
733-?-214で勝率77.4%。95%信頼区間は74.6〜80.0。 なんか、TDLeaf(λ)で学習すると大体これ位の値になりますね。なんでだろう。
5五将棋だとそこそこ強い(現在ssp相手に69勝24敗)ので、本将棋でも学習させてみます。
611-?-199で勝率75.4%。95%信頼区間は72.3〜78.4。前より多少弱くなってるけど、気にしない。
以前はノイズの分散を手調整していたんですが、探査率*1を見て自動調整する様に変更。やってる事はソフトマックス方策の温度を自動調整するのと似た感じです。 んで、ざっと走らせてみて意図した通りに動いてるみたいなんで、学習用マシンに投入します。 *1:…
すごく・・・広いです・・・・・・ こんなん、ちょっと探査した位で何とかなるレベルを超えてる気がするんですが・・・ orz なんだろう、この絶望感は。
について考えてみました。 んで、やっぱり「手を指したずっと後の局面の評価値・報酬の情報を利用可能」ってのがそれなんじゃないかと。 TreeStrapの論文には「探索中の情報を捨ててるからTDLeaf(λ)には無駄が多いし、PV末端ノードの評価値しか修正しないの…
ssp(5五将棋モード)相手に728-?-177。勝率80.4%で95%信頼区間は77.7〜83.0。 うーん、こうなったらTDLeaf(λ)を極めてみる方向で行くか?
12万局ほど対局したバージョンのパラメータでsspとの連続対局をさせてたんですが、現在65勝17敗。勝率79.3%。 て事は、以前試したTDLeaf(λ)+TreeStrap(minimax)バージョンは、実はTDLeaf(λ)の効果の方が高かったかもしれないって事ですね。 うーん、意外と…
まだ弱いorz とりあえず、一つの基準としてTDLeaf(λ)でどこまで強くなるかが必要なので、今夜はそれを走らせてみます。 んで、学習終わるのが明日の夜で、そっから連続対戦して結果が出るのが明後日… 何とかならんのか、このタイムラグは。
学習率が高すぎたせいか、全然弱いです。 という訳で、一桁下げてリトライ。これでマトモにならないかなぁ…
&イヤになるほどコードが汚くなりました。やめときゃ良かった。 まぁ、せっかく書いたコードを捨てるのももったいないんでそのまま使いますが、割に合わない最適化でした、本当に。 というか、そんな風に現実逃避してないでするべき事あるんじゃないかと>…
560勝391敗で勝率58.9%。95%信頼区間は55.7〜62.0。大分向上しました。 さて、そろそろTreeStrap(αβ)を成功させたいけど、いかんせん速度ががが…
…出来ませんでしたorz とりあえず、暫定版って事で学習用マシンに投入しますが、はっきり言って望み薄。全然遅いですから。 それから、開発用マシンでは上で書いたパラメータ使用でsspとの連続対戦を走らせときます。こっちは現在9勝1敗。調子いいじゃん。
20戦して10勝2分8敗くらい(多分)。引き分けは画面上に表示が無いから、多分その位って数字です。 んで、ざっと見てみた感じ、sspと互角程度にまでは向上している感じです。あくまで感じですが。 …さて、どうしようか。とりあえず今日はTreeStrap(αβ)を頑張…
http://journal.mycom.co.jp/articles/2010/06/07/intel_knights 昨日のニュースですが、IntelのKnights Ferryは初代Larrabeeだと報じられています。 クロックは1.2GHzで32コア×4スレッドで計128スレッドが1ボードで実行可能とされています。 以前の情報では…
2秒分の探索を処理するのに、5秒とか10秒とかざらにかかるって… これって、どっか勘違いしてる?
序盤から飛車角を切って無理攻めする癖が消えないので、TDLeaf(λ)部分の学習率をアップ。 これで多少はマシになってくれないかな?
昨日の学習の続きのバージョン(2日学習後)。 322勝645敗で勝率33.3%。95%信頼区間は30.3〜36.4。 まだまだ弱い…
214勝764敗で勝率21.9%。95%信頼区間は19.3〜24.6。 前よりはちょっと向上しましたが、まだまだですね。
探索部分を差し替えるだけなんで、ほとんどコピペで対処。サクっと出来ました。 学習率はTDLeaf(λ)部分は0.001で、TreeStrap(minimax)部分は0.1**5。それぞれで最適だった値にしてみました。 さて、あとは明日の夜に強くなってるかどうかですが…頼むぞ、GA将…
序盤はともかく、中盤〜終盤にかけてはTDLeaf(λ)でそこそこ上手く学習してたので、その成果を捨てるのもなんかもったいないです。 という訳で、基本TDLeaf(λ)で探索だけTreeStrapってのは出来ないかと考えています。 まぁ、例によって上手く行かない時の迷走…
131勝863敗で勝率13.2%、95%信頼区間は11.1〜15.4。 まぁ、まだ学習初期だしこんなもんか、って感じです。
まず並列化の効果ですが、一晩で1万1千局程度進んでいました。シングルスレッドだと1400前後だったので、ほぼ8倍速になってます。 んで、学習経過のグラフ。 歩の価値が一旦上昇した後に下がっていたりとか、銀の価値が低めになってる気がするとか、色々突っ…
http://techon.nikkeibp.co.jp/article/NEWS/20100601/183097/ 1チップに50以上のコアを集積したHPC向けプロセッサで、GPUみたいに拡張カード形式で提供される様です。 リンク先にはAubrey Isleと呼ばれるチップのダイ写真も載っています。 ダイサイズが不明…