GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2013-09-01から1ヶ月間の記事一覧

【募集】TD誤差を関数近似するだけの簡単なお仕事です

…が、何故か出来ない。 何でじゃ〜!!!

一週間ぶりのご無沙汰です

えー、先週半ばから風邪で寝込んだりしてて、開発は全然手が付けられていない状態です。 まぁ、風邪もだいぶ良くなったんで今日からは復帰ですが。 …で、明日から10月ですね。 今月中に学習を成功させたかったんですが、どうやらそれも望み薄です。 ま、出来…

あ、そうか

今の所問題なのは「近似の精度(自乗誤差とか)」ではなくて「目標値と近似値の相関係数」だから、そっちを見ないとダメ…なのかな? ただ、今日はもうタイムアップなんで、明日やります。早起きして朝コーディング、そのまま出社って流れに持ってけるかな。

うーん…

TD誤差の推定が上手く行っていないのは確かなんですが、原因がさっぱり不明。 何なんだろうなぁ、一体…

相変わらず自然TD学習に手こずってます

どうも、TD誤差推定器のパラメータ修正が上手く行っていない模様。 実際のTD誤差と推定値の相関を取ると、場合によっては相関係数がマイナスになったりとか _| ̄|○ もうちょっと頑張らないと。

バグ発見

「報酬が0なら対局中と判定する」ってルーチンがありました。 実際は引き分けの時も報酬が0になるんですが、その辺思いっきり考慮漏れしてました。 …アホか、俺は。

先手のみ学習すると、何故か引き分けに収束する

三目並べ・線形価値関数の場合です。 …バグだな、バグだろうなぁ。

振り出しに戻る?

えー、色々やってたら価値関数を両方共テーブル形式にしてもNGになりました。 いえ、原因は分かってるんで、トラブルとかそう言う事では無いですが。 原因つーのが探索ルーチンなんですが、今までは三目並べの場合は一手読みだけするルーチンを使ってました…

価値関数の違いによる学習の成否

自然TD学習での三目並べの学習。括弧内は収束までの(失敗した場合は学習打ち切りまでの)対局数です。 テーブル形式の行動価値関数 線形近似の行動価値関数 テーブル形式の状態価値関数 ○(1,500局) ×(2万局) 線形近似の状態価値関数 ○(11,200局) ×(5…

来たク〜〜

つー訳で仕事から帰宅しました。今から4時間は楽しい楽しい開発タイムです。 んで、とりあえず現状。三目並べの評価関数を少し修正しました。 具体的には、今まではテーブル形式の評価関数だったのを、任意の3マスのパターンの線形和で近似するのも出来る様…

う〜ん…

相変わらず、三目並べはちゃんと収束するものの、リバーシはNGです。 どこが悪いんだろう… さっぱり分からん _| ̄|○

ダメだった

4x4リバーシ・本将棋共に失敗でした。 さて、そうなると三目並べだけ成功したのが謎ですね。 評価関数の差なのか、探索ルーチンの差か、それとももっと他か… 調べなきゃいけないのは沢山あるんで、順番にやっていきます。

よく分からん

4x4リバーシで実験中。 まず、PGLeafでは1万〜1万2千局程度で正しく収束します。 んで、自然TD学習だとどうかって言うと、学習(単位時間あたりの対局数)が遅いので1万局はなかなか実験出来ません。 ただ、途中の誤差の減り方とか見てると、どうも時間かけ…

とりあえず三目並べはちゃんと収束

自然TD学習での自己対戦学習です。 んで、バグを一個取ったらあっさりと成功。 以下、学習時の条件。自分用メモなんで訳わかめだと思いますが、ご了承を。 学習率等の値は論文そのまま。ただし、βのみ0.99999に変更。 テーブル形式の評価関数。パラメータ数…

昨日書いた本

バッドデータハンドブック ―データにまつわる問題への19の処方箋作者: Q. Ethan McCallum,磯蘭水,笹井崇司出版社/メーカー: オライリージャパン発売日: 2013/09/26メディア: 単行本(ソフトカバー)この商品を含むブログ (9件) を見る アマゾンで予約開始さ…

あれ? ひょっとしてデュアルCPUの方がお得?

http://d.hatena.ne.jp/Gasyou/20130911/1378896571 昨日書いた「Xeon E5の12コアをシングルソケットで40万コース」って話ですが、ひょっとしたらデュアルソケットにした方が安くて性能上がるかも。 http://akiba-pc.watch.impress.co.jp/img/ah/docs/614/94…

まずはリバーシから始めよう

いきなり将棋で学習させても、学習にも検証にも時間かかるんで、まずは4x4リバーシから。 以前ちょっと気になる現象を発見していましたし、まずはそれを再現&原因解明ですね。

Xeon E5-2600 v2発表

http://pc.watch.impress.co.jp/docs/news/20130911_614878.html http://akiba-pc.watch.impress.co.jp/docs/news/news/20130911_614943.html 事前情報通りハイスペック&高速&鬼高い価格ですね。 E5-2697 v2は12コア・24スレッドで定格2.7GHz(12コア動作…

面白そうな本発見

バッドデータハンドブック――データにまつわる問題への19の処方箋 自己対戦の棋譜なんてノイズと外れ値だらけのデータでしょうから、そういうデータから「価値のある情報」を見つける手法は役に立ちそうです。 ただ、結構高い&ページ数多そうだから、今すぐ…

ちょっとずつ前進

自然TD学習で、状態価値関数の誤差がちゃんと減少する様にはなりました。 んで、こっからさらに2ステップほど計算しなきゃいけない事があるのですが、そっちはまだ見通しが立っていません。 時間的に考えると、今やってるのが電王トーナメントまでのラストの…

Let's 見切り発車

そんな訳で、論文に載っている例題の結果を再現出来ませんでしたが、ボードゲーム用の自然TD学習エージェントを実装中。 と言うか、既に昨夜から実装していて、残りはパラメータ更新部分を実装すれば完了です。 とりあえず4x4リバーシで動かしてみて、PGLeaf…

Atom C2000シリーズ発表

http://pc.watch.impress.co.jp/docs/news/20130905_614086.html Atom C2570は8コア・2.4GHz(ターボ時2.6GHz)、メモリはDDR3でMAX 64GB。 価格は1000個ロット時で$171らしいので、これを載せたMini-ITXマザーが出てくれば面白そうですね。 ただ、それなり…

先日書いた論文

https://library.naist.jp/mylimedio/search/av1.do?target=local&bibid=83407 修士論文版が公開されていました。 色々加筆してありますし、これを読んで理解深めるのが良いかな。 ちなみに練習用にコード書いてるんですが、まだ特定条件(パラメータ)でし…

なんか、今日は調子出ないなぁ

よし、ここは思い切って明日やる事にしよう。 てな訳で、論文を読み返しつつ酔っ払う事にします。

NT-D実装中

あ、間違えた、N-TD(Natural-Temporal Difference Learning)です。昨日書いた論文の手法。 http://ci.nii.ac.jp/naid/110003234178 にしても、この論文は異様にレベル高い気がします。 従来手法の問題点を解消しつつ、提案手法のアルゴリズムはシンプルに…

Core i7-4960X発表

http://pc.watch.impress.co.jp/docs/news/20130903_613761.html Ivy Bridge-Eな6コアで、クロックは定格3.6GHz・MAX 4GHz。 前モデルのi7-3970Xと比べると、定格クロックを伸ばしつつTDPは下がっていますので、これはプロセスシュリンクの恩恵でしょう。 性…

↑の論文

とりあえずざっと読んでみました…が、どうも私の想像していたのとは違う感じのアルゴリズムでした。 ただ、まだ定理とか証明とかは理解出来ていないものの、アルゴリズム自体は私でも実装出来そうな感じです。 ついでに言うと、私のアイデアより遥かに実践的…

自然 TD 学習 : 割引報酬における TD 誤差を利用する自然方策勾配に基づいた強化学習法

http://ci.nii.ac.jp/naid/110003234178 ひょっとしたら今やろうとしている事と方向性が同じかもしれないので、購入して読んでます。 てか、方向性が同じで遥か先に行ってたらどうしよう。嬉しい様な、困る様な。 電王トーナメントまで残り僅かな時間で、果…

え〜

「限りなく黒に近いグレー」は「白」でした。 てか、データの見方を間違ってました。確率統計が苦手なのがモロに出た感じですね。 …はぁ、これが「黒」だったら一気に進展したかもしれないのに…

続・方策がバグってる疑惑

「限りなく黒に近いグレー」な現象を発見。 てかこれ、かなり致命的な気が。 適当に実装してロクにテストしていなかったツケがこんな形で出るとは…