GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2010-09-01から1ヶ月間の記事一覧

GPUを使ったRAID処理のアクセラレーション

http://pc.watch.impress.co.jp/docs/news/event/20100924_395976.html を実装した会社があるそうです。て事は、DBサーバとかにTeslaが載る日も近い? にしても、よくそんな変な事思い付くなぁ。こういうゲテモノっぽいのは大好きです。

遅すぎ

自己対戦での学習が、一日あたり約3000局ペースでしか進んでいません。 ちなみにマシンはCore i7 940。シングルスレッド。 前はマルチスレッド化すれば、同条件(探索深さ0)で100万局程度は行ってたんで、段違いに遅いですね。 理由ははっきりしていて、勾…

将棋用の学習ルーチンを実装完了

方策勾配法自体は三目並べと同じ奴を使い回して、主に評価関数まわりの機能追加。 ざっとテストして大丈夫そうなので、学習用マシンはリリースモードで、開発用マシンはアサーション有効で走らせてみます。

このディスプレイ欲しいなぁ

http://pc.watch.impress.co.jp/docs/news/20100922_395572.html 30インチで10bitカラー対応、15万円代。 今も30インチのを使ってるんですが、入力が1系統でHDCP非対応のせいで、地デジもBlu-rayも見れないんですよ。 …よし、貯金してでも買おう。

三目並べの方策勾配法、一応完成

まだ収束が遅くて10万局前後かかってますが、ちゃんと引き分けに収束しました。 収束は多分TD(λ)より遅いですが*1、問題は収束速度より伸び代なんで、そっち方面で期待しています。あと、関数近似を入れると収束速くなるかもしれませんし*2。 さてと、それじ…

ソースコードから自動的にハードウェアを生成するプロセッサ?

http://journal.mycom.co.jp/articles/2010/09/22/hot_chips22_greendroid/index.html 詳細はちゃんと理解出来てないんですが、どうもソースコードを分析して、その部分を処理する専用ハードを自動生成してくれるらしいです。 Reconfigurableプロセッサ*1と…

よっしゃ、一部成功

先手だけ学習し、後手が左上から順に打っていくという条件下で、勝率が99〜100%に収束しました。とりあえずは成功ですね。(後手がランダム指しだと、勝率80%位が上限でした。) んで、次は後手だけ学習させて、それが上手く行ったら将棋の方も実装ですね。

ウワァァァン 俺のバカ!

方策の実装間違ってましたよ orz そりゃ学習してくれないはずだ。納得。

あれ、gps_normalに勝っちゃってるよ

http://wdoor.c.u-tokyo.ac.jp/shogi/view/index.cgi?go_last=on&csa=http%3A%2F%2Fwdoor.c.u-tokyo.ac.jp%2Fshogi%2Ftools%2FLATEST%2F%2F2010%2F09%2F23%2Fwdoor%2Bfloodgate-900-0%2BGasyou_Atom-D510_1c2t%2Bgps_normal%2B20100923143003.csa 何があった…

王将の移動可能範囲の評価方法

現実逃避がてら、GA将!!!!!でやってる王将の移動可能範囲の評価について書いてみます。選手権とかで時々聞かれたりする事があるので、まぁ多少の需要はあるかな、とも思いますし。 んで、王将の8近傍のうち安全なマスの数を評価するってのは、割と以前からさ…

三目並べは相変わらず

方策勾配法では、全然学習が進みません。 何か、ほとんどのパラメータが0になっちゃうのと、先手の行動選択に関連するパラメータしか更新していなはずが、何故か後手の行動選択に関連するパラメータまで更新されている、って辺りまでは突き止めたんですが。 …

方策勾配法に関する幾つかの事

とりあえず多碗バンディット問題で実験してみて、分かった事。 ちゃんと収束するし、εグリーディーより性能良い→基本的な考え方自体は間違っていないらしい。 温度には意外と敏感。 温度=1.0だと収束後の報酬が温度=2.0より微妙に少なくなるものの、収束速度…

ガンダム00劇場版感想その2(ネタバレ注意)

例によって続きを読むでお願いします。軽いネタバレ有りです。

一旦基本的なところに戻ってみます

三目並べの方策勾配法で、先手のみ学習する様にしてみたんですが、先手の勝率が50〜60%のまま変化しません。 どっか勘違いしている可能性があるので、まずは多碗バンディット問題で方策勾配法の特性を見てみようと思います。

コンピュータの補助記憶装置には裁判の証拠能力が無い事が証明

されました。大阪地検特捜部の手によって。 http://slashdot.jp/article.pl?sid=10/09/21/0228228 これで、違法ダウンロードとかで裁判になっても、有力な証拠はほぼ無い事になりますね。大抵の裁判では。 「その証拠のファイル、本当に被告人がダウンロード…

ガンダム00劇場版の感想(ネタバレ注意)

ネタバレ有りなんで、続きを読むからどうぞ。

あれ、温度パラメータって修正不要?

9/17の日記で書いた事、間違ってるかも。>ボルツマン分布の温度も方策パラメータなんで、これも方策勾配法で調整してやる必要があるんじゃないかと。 ひょっとしたら、方策勾配法を使えば温度固定って条件下で最適なパラメータに落ち着くかも。 と言うか、ex…

明日は昼からガンダム00の劇場版見に行ってきます

明日ってか、もう今日(20日)になってますが。 ガンダム初の宇宙人登場らしいですし、色々楽しみ。 ひょっとしたら、後で感想書くかもしれません。

うがー

さっぱりわかんねー。どこが悪いんだ? 俺の頭か?

実装完了

…したんですが、全然収束しません。 で、一つ気付いたんですが、ボルツマン分布の温度も方策パラメータなんで、これも方策勾配法で調整してやる必要があるんじゃないかと。今までは自前のアルゴリズムで調整していましたが。 となると、もう一回あの微分をや…

現在の状況

とりあえず連続対戦するコードは書いたんで、後は情報収集して学習する部分を書くだけ。 本の解読も大分進んだんで、数日中には実装完了の予定。

とりあえず三目並べで実験

まずは三目モードでコンパイル出来る様にしないと。最近は将棋の拡張ばっかしてたんで、多分コンパイルエラーが多発するはず。

ソフトマックス方策を用いた方策勾配法の計算式

どっかおかしかったら指摘お願いします。 まず、行動価値関数Qは下記の通りの線形近似を行う。 ここで、Bは特徴量の数(次元数)、は特徴量。 次に、方策は下記の通り。 次に、は下記の通り計算出来る。// 17:54修正 こうですか分かりません // 21:09追記 間…

一通り読み終わりました

連続状態・行動の部分とかソースコードとかは一部読み飛ばしましたが、大体読了。 …ダメだ、さっぱり理解出来てない。もう一度、手計算しながら読む必要がありますね。 それから、需要があるかどうかは不明ですが、読んだ感想。 まず、強化学習を一から理解…

えーっと

「方策勾配法だと実用上の問題が多いので、自然方策勾配法を使う必要がある」って理解でいいのかな? いや、各アルゴリズムの詳細が全く理解出来てないんで、全然良くないんですが(汗 …まずは方策勾配法を実装して、その後自然方策勾配法に移ろう。一気に色…

うがー

頭爆発しそう。 誰だよ、微分とか考えた奴。俺には理解出来ないけど便利そうじゃねーか。

強化学習の本、届きました

強くなるロボティック・ゲームプレイヤーの作り方 ~実践で学ぶ強化学習~作者: 八谷大岳,杉山将出版社/メーカー: 毎日コミュニケーションズ発売日: 2008/08/28メディア: 単行本(ソフトカバー) クリック: 73回この商品を含むブログ (12件) を見る 復習がてら…

Sandy BridgeベースのXeon DPは2011年後半?

http://www.4gamer.net/games/098/G009883/20100914005/ http://newsroom.intel.com/community/intel_newsroom/blog/2010/09/13/intel-details-2011-processor-features-offers-stunning-visuals-built-in 一応英語の公式ソースらしきものにもあたってみまし…

VS ssp(本将棋モード)

今回から、深さ3手でパラメータ引き継ぎで学習したもの。 んで、70-1-318で勝率18.0%。95%信頼区間は14.3〜22.2。 思いっきり、弱くなってますよorz

VS ssp(本将棋モード)

175-5-384で勝率31.3%。95%信頼区間は27.5〜35.3。 また弱くなってますよorz