GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2010-01-01から1年間の記事一覧

VS ssp(5五将棋モード)

313-?-641で勝率32.8%。95%信頼区間は29.8〜35.9。 とりあえず、以前よりはまともになった感じです。後は二日・三日の学習でどこまで伸びるかですね。

ようやくssp相手に3割

方策勾配法で学習していたやつですが、ようやく3割程度勝てる様になってきました。 現在48-?-111で勝率30.2%。シグモイド関数のゲインを0.01に上げて、一晩学習させたバージョンです。 この調子で強くなって、2〜3日で勝率6割まで行けばいいんですが… んで…

3TB HDDの解説記事

http://pc.watch.impress.co.jp/docs/column/hirasawa/20101115_406951.html ブートドライブやデータドライブとして使用する際の条件等が詳細に載っています。 来年辺りに組む地デジ録画用PCは2TBのHDDを積む予定ですが、後々増設って事も考えられるので、今…

シャープのスマートフォン事業説明会

http://pc.watch.impress.co.jp/docs/news/20101115_407015.html 色々強気なのは頼もしい限りなんですが、キャリアは大手三社のみでウィルコムのウの字も出てこないです。残念ながら。 後、OSはAndroidばっかりでちょっと面白く無いかなぁ、とか思ったり。 …

IntelがLarrabee改めKnightsシリーズに言及

http://cloud.watch.impress.co.jp/docs/news/20101111_406140.html スライドではクロックが1〜1.2GHzとなっていますが、商用版のKnights Cornerではもっと高クロックになるのを期待。コア数多いので無理かもしれませんが。 ともかく、言及があったという事…

今後の方針について検討中

方策勾配法でパラメータ数が多い場合に学習出来ないとすると、それじゃぁその次はどうするんだって話です。 んで、今はざっと二つ案があります。 頑張って方策勾配法で何とかする。 TDLeaf(λ)やTreeStrap(αβ)に戻る。 出来れば前者で何かしたいけど、現状で…

印刷してみたら、評価関数だけで55ページあった件

長すぎ&重すぎ。 ファイルサイズ見たら112KBだった。無駄に色々書いてるなぁ。

設定変えて学習用マシンに投入

相変わらず方策勾配法で学習出来ないかやってます。 んで、まだ5五将棋でsspにもTDLeaf(λ)バージョンにも追いつけてないので、思い切って設定変えたのを投入。 評価項目を駒割+筋・段個別の絶対位置評価+王将の移動可能範囲(距離3まで)に変更。 パラメー…

Bulldozerは2011/4に量産開始らしい

http://blog.livedoor.jp/amd646464/archives/51744010.html 選手権に間に合うかは微妙な感じですが、ようやく出てくるのか、といった感じです。 Bulldozer NG(Bulldozer 2)についても、新命令サポートで開発が進められているそうです。 後は実際の性能で…

4x4リバーシに戻ってちょっと実験

今までは4x4リバーシは探索無しの方策勾配法で、5五将棋は探索有りの方策勾配法で学習させていました。 んで、探索有りの方策勾配法に問題があるんじゃないかと思い、4x4リバーシで探索有りの方策勾配法を試してみました。 結果↓ 探索有り(depth==4)の方が…

TDLeaf(λ)で強くならない…

前に5五将棋をTDLeaf(λ)で学習させた時は、確か対sspで勝率8割位まで行ったはずが、学習させ直すとなかなか強くなりません。 ただ、ようやく5割程度にまで伸びたので、これをベースに方策勾配法で学習させる事にしました。 探索は全幅0手だとすぐ収束しちゃ…

VS ssp(5五将棋モード)

TDLeaf(λ)のパラメータを引き継いで方策勾配法で半日学習させたヤツ。 結果、139??-560で勝率19.9%。95%信頼区間は17.0〜23.0。 誤差程度しか強くなってないですね。う〜ん、どういう事だろう…

VS ssp(5五将棋モード)

昨夜からTDLeaf(λ)+ソフトマックス(目標探査率0.01)、全幅2手読みで学習させた分。 結果、141-?-575で勝率19.7%。95%信頼区間は16.8〜22.8。 前は80%位いってた筈なんで、何かおかしいですね。 ひょっとしたら、前は1手読みだったかもしれないんで、そ…

VS ssp (5五将棋モード)

今朝からの分。 65-?-269で勝率19.5%。95%信頼区間は15.4〜24.1。 まだ収束遅いんで、TDLeaf(λ)でざくっと学習させてから、パラメータ引き継ぎで方策勾配法って流れにしてみます。

VS ssp(5五将棋モード)

昨夜からの分。 116-?-825で勝率12.3%。95%信頼区間は10.3〜14.6。ちょっと上向いてきました。 ただ、まだ収束が遅すぎるのにはかわりないんで、何か対策を考えないと。

軽く設定変更

サンプリング間隔を10局→4局に変更。4x4リバーシで実験して、正しく収束した下限に設定してみました。 学習用マシンに投入して1時間ほど走らせてみたところ、1局あたりのパラメータの変化量が大きくなってたので、効果があるんだと思います。多分。 …さて、…

VS ssp(5五将棋モード)

今朝から対局させてた分。 結果、28-?-734で勝率3.7% orz つまり、並列化して対局数は増えたものの、対局数に見合った学習の進展具合では無い、という事になります。 うーん、どうしたもんかなぁ。

学習部分の並列化完了

Core i7(仮想8コア)でシングルスレッド比4.7倍速なんで、まぁ良い方かなと。 つっても、速度は24時間あたりの対局数で測ってますが、実際の収束速度はもっと遅いでしょうし、実質2〜3倍速程度か? さて、後はちゃんと強くなるかだけど…途中経過見る限り、び…

VS ssp(5五将棋モード)

今朝からの分。 36-?-716で勝率4.8%。ほとんど誤差程度しか強くなってないですね。 とりあえず、収束が遅いとどうしようもないので、今日は学習部分の並列化をしてみます。

VS ssp(5五将棋モード)

31-?-733で勝率4.1%。 いやぁ、まだまだ弱いですね。

VS spp(5五将棋モード)

現在3勝40敗。まだ弱いですが、ちょっとは勝てる様になってきました。 とりあえず学習を継続して、今後の成長に期待しましょう。

AMD Bulldozer情報

http://www.4gamer.net/games/110/G011065/20101020008/ 目新しい情報はないですが、公式発表があったという事は来年の投入に向けて順調という事でしょう。 デスクトップ向けのハイエンドCPUは8コア(4 Bulldozer Module)らしいですし、久々のAMDハイエンド…

SPARC T3発表

http://journal.mycom.co.jp/news/2010/10/20/042/index.html 1ソケットで16コア・128スレッドで、最大構成だと4ソケット・64コア・512スレッドらしいです。 Tシリーズなんでシングルスレッド性能はそこそこでしょうけど、これだけの並列性が得られるのは面…

ヨーコ、再起動

http://blog.livedoor.jp/geek/archives/51087204.html それゆけ! 宇宙戦艦ヤマモト・ヨーコの新装版が今日発売になったみたいです。 残念ながらまだ入手してないんですが、早く買ってこないと。 にしても、確か私が中学の頃に1巻発売なんで、かなり長い連…

ちょっとOpenMPで遊んでみた

Nクイーン問題を解くプログラムをOpenMPで並列化してみました。 んで、結果。N=15の場合、4コアマシンで高速化率2.5倍の壁をどうしても破れません。 うーん、困った。思ったより性能出てない。 まぁ、真面目にマルチスレッド化して速度向上率を測ってみるの…

まだ収束していない、だと…!?

うがー、いつまでかかるんじゃー!? あ、でも、昨日よりは指し手がマトモになってきたっぽいんで、まぁ期待出来るかも。 にしても、47万局経過して未収束かぁ。TDLeaf(λ)より、大分収束遅いみたいですね。

5五将棋はとりあえず順調に学習中

昨夜からは学習率0.01で走らせてたんですが、0.5にしても問題無さそうなんで設定変えて学習しなおしてます。 んで、まだ学習は収束していないらしく、対局させてみると変な手ばかりです。 対局速度は、24時間で45万局前後。探索が浅いんで、まぁこんなもんで…

ちょっとだけ進展

この前リンクした論文読んでたら、方策勾配の計算式が変だったのに気が付いて、慌てて修正。 んで、とりあえずはちゃんと動いているみたいです。あくまで今の所は、ですが。 学習率低めにしてみたんで、多分学習には時間がかかると思いますから、とりあえず…

Policy Gradient Methods for Reinforcement Learning with Function Approximation読んだまとめ

例によって自分用です。 アブストラクト 大規模な強化学習問題を解くには関数近似が必要だ。過去10年で主流だったのは価値関数の近似(と、それをベースにした方策)だった。これは多くの応用において良く働いたが、その手法にはいくつかの限界もある。 この…

そう言えば論文

この前書いた「自然方策勾配法に基づくオフポリシー型強化学習法」ですが、買って読んでみました。 さっぱり理解出来ませんでしたが、論文中で関数近似と方策勾配法を組み合わせた手法*1があると書かれていたので、今度はそっちの論文を読んでみます。 例に…