2010-10-01から1ヶ月間の記事一覧
前に5五将棋をTDLeaf(λ)で学習させた時は、確か対sspで勝率8割位まで行ったはずが、学習させ直すとなかなか強くなりません。 ただ、ようやく5割程度にまで伸びたので、これをベースに方策勾配法で学習させる事にしました。 探索は全幅0手だとすぐ収束しちゃ…
TDLeaf(λ)のパラメータを引き継いで方策勾配法で半日学習させたヤツ。 結果、139??-560で勝率19.9%。95%信頼区間は17.0〜23.0。 誤差程度しか強くなってないですね。う〜ん、どういう事だろう…
昨夜からTDLeaf(λ)+ソフトマックス(目標探査率0.01)、全幅2手読みで学習させた分。 結果、141-?-575で勝率19.7%。95%信頼区間は16.8〜22.8。 前は80%位いってた筈なんで、何かおかしいですね。 ひょっとしたら、前は1手読みだったかもしれないんで、そ…
今朝からの分。 65-?-269で勝率19.5%。95%信頼区間は15.4〜24.1。 まだ収束遅いんで、TDLeaf(λ)でざくっと学習させてから、パラメータ引き継ぎで方策勾配法って流れにしてみます。
昨夜からの分。 116-?-825で勝率12.3%。95%信頼区間は10.3〜14.6。ちょっと上向いてきました。 ただ、まだ収束が遅すぎるのにはかわりないんで、何か対策を考えないと。
サンプリング間隔を10局→4局に変更。4x4リバーシで実験して、正しく収束した下限に設定してみました。 学習用マシンに投入して1時間ほど走らせてみたところ、1局あたりのパラメータの変化量が大きくなってたので、効果があるんだと思います。多分。 …さて、…
今朝から対局させてた分。 結果、28-?-734で勝率3.7% orz つまり、並列化して対局数は増えたものの、対局数に見合った学習の進展具合では無い、という事になります。 うーん、どうしたもんかなぁ。
Core i7(仮想8コア)でシングルスレッド比4.7倍速なんで、まぁ良い方かなと。 つっても、速度は24時間あたりの対局数で測ってますが、実際の収束速度はもっと遅いでしょうし、実質2〜3倍速程度か? さて、後はちゃんと強くなるかだけど…途中経過見る限り、び…
今朝からの分。 36-?-716で勝率4.8%。ほとんど誤差程度しか強くなってないですね。 とりあえず、収束が遅いとどうしようもないので、今日は学習部分の並列化をしてみます。
31-?-733で勝率4.1%。 いやぁ、まだまだ弱いですね。
現在3勝40敗。まだ弱いですが、ちょっとは勝てる様になってきました。 とりあえず学習を継続して、今後の成長に期待しましょう。
http://www.4gamer.net/games/110/G011065/20101020008/ 目新しい情報はないですが、公式発表があったという事は来年の投入に向けて順調という事でしょう。 デスクトップ向けのハイエンドCPUは8コア(4 Bulldozer Module)らしいですし、久々のAMDハイエンド…
http://journal.mycom.co.jp/news/2010/10/20/042/index.html 1ソケットで16コア・128スレッドで、最大構成だと4ソケット・64コア・512スレッドらしいです。 Tシリーズなんでシングルスレッド性能はそこそこでしょうけど、これだけの並列性が得られるのは面…
http://blog.livedoor.jp/geek/archives/51087204.html それゆけ! 宇宙戦艦ヤマモト・ヨーコの新装版が今日発売になったみたいです。 残念ながらまだ入手してないんですが、早く買ってこないと。 にしても、確か私が中学の頃に1巻発売なんで、かなり長い連…
Nクイーン問題を解くプログラムをOpenMPで並列化してみました。 んで、結果。N=15の場合、4コアマシンで高速化率2.5倍の壁をどうしても破れません。 うーん、困った。思ったより性能出てない。 まぁ、真面目にマルチスレッド化して速度向上率を測ってみるの…
うがー、いつまでかかるんじゃー!? あ、でも、昨日よりは指し手がマトモになってきたっぽいんで、まぁ期待出来るかも。 にしても、47万局経過して未収束かぁ。TDLeaf(λ)より、大分収束遅いみたいですね。
昨夜からは学習率0.01で走らせてたんですが、0.5にしても問題無さそうなんで設定変えて学習しなおしてます。 んで、まだ学習は収束していないらしく、対局させてみると変な手ばかりです。 対局速度は、24時間で45万局前後。探索が浅いんで、まぁこんなもんで…
この前リンクした論文読んでたら、方策勾配の計算式が変だったのに気が付いて、慌てて修正。 んで、とりあえずはちゃんと動いているみたいです。あくまで今の所は、ですが。 学習率低めにしてみたんで、多分学習には時間がかかると思いますから、とりあえず…
例によって自分用です。 アブストラクト 大規模な強化学習問題を解くには関数近似が必要だ。過去10年で主流だったのは価値関数の近似(と、それをベースにした方策)だった。これは多くの応用において良く働いたが、その手法にはいくつかの限界もある。 この…
この前書いた「自然方策勾配法に基づくオフポリシー型強化学習法」ですが、買って読んでみました。 さっぱり理解出来ませんでしたが、論文中で関数近似と方策勾配法を組み合わせた手法*1があると書かれていたので、今度はそっちの論文を読んでみます。 例に…
方策勾配法が動くめどは立たず、かと言って他にアイデアがあるわけでも無く。 どうしましょうねぇ。毎度ながら、ピンチです。
いや、全然よくないんですけどね orz とりあえず方策勾配法+線形の評価関数で4x4のリバーシを解こうとして、色々やってます。 んで、細々とバグを潰してもダメ。パラメータ調整をしてみてもダメ。評価項目を追加してみてもダメ。 …次はどうしようかなぁ。 …
報酬の計算式が変だったり、勾配の計算が変だったりしたのを修正。 ただこれ、リバーシ固有のコードのバグだから、将棋の方には関係無いよなぁ。て事は、このまま将棋にリトライしても望み薄って事で… うーん、どうするか… とりあえず、リバーシの方は一応学…
チョコマシュマロうめーッス。
http://d.hatena.ne.jp/gamidere/20101007/1286445860 http://d.hatena.ne.jp/issei_y/20101007/1286448687 コミケ直前の雰囲気と似てる。一般参加者→「もうすぐだな〜。楽しみ。」 発表する人→「うわぁああああああああああああああああああああああああ、…
対局条件は下記の通り。 4マスx4マスのリバーシ 黒(または白)番のプレイヤーは最善を尽くす 白(または黒)番のプレイヤーは最初の手*1を指す 結果は、黒のみ最善だと+16で黒の勝ち、白のみ最善だと-14で白の勝ちになる。 *1:Ver 5.0.08時点のGA将!!!!!の…
http://wdoor.c.u-tokyo.ac.jp/shogi/LATEST/html/current/2010-10-Gasyou_Atom-D510_1c2t-tsutsukana.html 選手権の二次予選で当たった時は消化不良で終わっちゃったんですが、floodgateであの時の続きが出来るかと思いきや、ツツカナさんが一気に強くなっ…
今まで4x4のリバーシはテーブル形式の評価関数でやってたんですが、それじゃぁあんまりテストにならないんで、線形+シグモイドの評価関数も実装。現在テスト中。 後は学習中のパラメータの変化を出力する様にして、将棋同様に発散するかどうかの調査ですね…
先手と後手で特徴量の符号を反転したりとか色々やってるんですが、その“色々”が悪さしてるかもしれないと思い、先手だけバージョンと後手だけバージョンを学習モードで走らせてみます。 …ただ、今ざっと見た限り、あんまり芳しくなさそうな感じです。まぁ、…
http://wdoor.c.u-tokyo.ac.jp/shogi/tools/view/index.cgi?go_last=on&csa=http://wdoor.c.u-tokyo.ac.jp/shogi/x/2010%2F10%2F03%2Fwdoor%2Bfloodgate-900-0%2BGasyou_Atom-D510_1c2t%2Bpishogi%2B20101003123006.csa 負けてますよ、ちくしょー。 んで、そ…