GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2013-01-01から1年間の記事一覧

今日も進展無し

相変わらず自然TD学習をやってますが、三目並べの学習ですら挙動が怪しいです。 …うーん、手詰まりっぽいなぁ。

あれ?

三目並べは時間をかければ収束する? でも、4x4リバーシが収束まで1,000局で、三目並べだと2,000局ってのは時間かかりすぎだよなぁ。 …うん、やっぱりどっかバグってんだろう。多分。

えーっと…(汗

4x4リバーシは学習に成功したんですが、三目並べの方は失敗しているみたいです。 どういう事でしょうかねぇ…

学習部分の並列化完了

と言うか、元から大枠は出来ていて、今日はコンパイル時オプションの変更と微調整しかしてないんですが。 んで、早速学習用マシンにリリースモードで投入。開発用マシンではアサーション有効でテストしてみます。 それから、メタパラメータβを微調整。0.999→…

書くの忘れてた

↑で書いた「ちゃんと収束する様になった」理由ですが、ψの正規化を実装したら上手く行く様になりました。 具体的には、ψの全要素の絶対値の合計が1になる様に調整してから、TD誤差の近似に使う様にしました。 何でこれで上手く行ったのか理論的な事は不明で…

とりあえず4x4リバーシは完了

線形の評価関数を使って、1,000局前後でちゃんと収束する様になりました。 TD誤差とその予測値の相関係数ですが、0.5前後となりまずまずの値。 んで、今朝から走らせていた本将棋の学習ですが、9,500局経過後のパラメータでLesserkai相手に17-0-3。 まだ伸び…

【募集】TD誤差を関数近似するだけの簡単なお仕事です

…が、何故か出来ない。 何でじゃ〜!!!

一週間ぶりのご無沙汰です

えー、先週半ばから風邪で寝込んだりしてて、開発は全然手が付けられていない状態です。 まぁ、風邪もだいぶ良くなったんで今日からは復帰ですが。 …で、明日から10月ですね。 今月中に学習を成功させたかったんですが、どうやらそれも望み薄です。 ま、出来…

あ、そうか

今の所問題なのは「近似の精度(自乗誤差とか)」ではなくて「目標値と近似値の相関係数」だから、そっちを見ないとダメ…なのかな? ただ、今日はもうタイムアップなんで、明日やります。早起きして朝コーディング、そのまま出社って流れに持ってけるかな。

うーん…

TD誤差の推定が上手く行っていないのは確かなんですが、原因がさっぱり不明。 何なんだろうなぁ、一体…

相変わらず自然TD学習に手こずってます

どうも、TD誤差推定器のパラメータ修正が上手く行っていない模様。 実際のTD誤差と推定値の相関を取ると、場合によっては相関係数がマイナスになったりとか _| ̄|○ もうちょっと頑張らないと。

バグ発見

「報酬が0なら対局中と判定する」ってルーチンがありました。 実際は引き分けの時も報酬が0になるんですが、その辺思いっきり考慮漏れしてました。 …アホか、俺は。

先手のみ学習すると、何故か引き分けに収束する

三目並べ・線形価値関数の場合です。 …バグだな、バグだろうなぁ。

振り出しに戻る?

えー、色々やってたら価値関数を両方共テーブル形式にしてもNGになりました。 いえ、原因は分かってるんで、トラブルとかそう言う事では無いですが。 原因つーのが探索ルーチンなんですが、今までは三目並べの場合は一手読みだけするルーチンを使ってました…

価値関数の違いによる学習の成否

自然TD学習での三目並べの学習。括弧内は収束までの(失敗した場合は学習打ち切りまでの)対局数です。 テーブル形式の行動価値関数 線形近似の行動価値関数 テーブル形式の状態価値関数 ○(1,500局) ×(2万局) 線形近似の状態価値関数 ○(11,200局) ×(5…

来たク〜〜

つー訳で仕事から帰宅しました。今から4時間は楽しい楽しい開発タイムです。 んで、とりあえず現状。三目並べの評価関数を少し修正しました。 具体的には、今まではテーブル形式の評価関数だったのを、任意の3マスのパターンの線形和で近似するのも出来る様…

う〜ん…

相変わらず、三目並べはちゃんと収束するものの、リバーシはNGです。 どこが悪いんだろう… さっぱり分からん _| ̄|○

ダメだった

4x4リバーシ・本将棋共に失敗でした。 さて、そうなると三目並べだけ成功したのが謎ですね。 評価関数の差なのか、探索ルーチンの差か、それとももっと他か… 調べなきゃいけないのは沢山あるんで、順番にやっていきます。

よく分からん

4x4リバーシで実験中。 まず、PGLeafでは1万〜1万2千局程度で正しく収束します。 んで、自然TD学習だとどうかって言うと、学習(単位時間あたりの対局数)が遅いので1万局はなかなか実験出来ません。 ただ、途中の誤差の減り方とか見てると、どうも時間かけ…

とりあえず三目並べはちゃんと収束

自然TD学習での自己対戦学習です。 んで、バグを一個取ったらあっさりと成功。 以下、学習時の条件。自分用メモなんで訳わかめだと思いますが、ご了承を。 学習率等の値は論文そのまま。ただし、βのみ0.99999に変更。 テーブル形式の評価関数。パラメータ数…

昨日書いた本

バッドデータハンドブック ―データにまつわる問題への19の処方箋作者: Q. Ethan McCallum,磯蘭水,笹井崇司出版社/メーカー: オライリージャパン発売日: 2013/09/26メディア: 単行本(ソフトカバー)この商品を含むブログ (9件) を見る アマゾンで予約開始さ…

あれ? ひょっとしてデュアルCPUの方がお得?

http://d.hatena.ne.jp/Gasyou/20130911/1378896571 昨日書いた「Xeon E5の12コアをシングルソケットで40万コース」って話ですが、ひょっとしたらデュアルソケットにした方が安くて性能上がるかも。 http://akiba-pc.watch.impress.co.jp/img/ah/docs/614/94…

まずはリバーシから始めよう

いきなり将棋で学習させても、学習にも検証にも時間かかるんで、まずは4x4リバーシから。 以前ちょっと気になる現象を発見していましたし、まずはそれを再現&原因解明ですね。

Xeon E5-2600 v2発表

http://pc.watch.impress.co.jp/docs/news/20130911_614878.html http://akiba-pc.watch.impress.co.jp/docs/news/news/20130911_614943.html 事前情報通りハイスペック&高速&鬼高い価格ですね。 E5-2697 v2は12コア・24スレッドで定格2.7GHz(12コア動作…

面白そうな本発見

バッドデータハンドブック――データにまつわる問題への19の処方箋 自己対戦の棋譜なんてノイズと外れ値だらけのデータでしょうから、そういうデータから「価値のある情報」を見つける手法は役に立ちそうです。 ただ、結構高い&ページ数多そうだから、今すぐ…

ちょっとずつ前進

自然TD学習で、状態価値関数の誤差がちゃんと減少する様にはなりました。 んで、こっからさらに2ステップほど計算しなきゃいけない事があるのですが、そっちはまだ見通しが立っていません。 時間的に考えると、今やってるのが電王トーナメントまでのラストの…

Let's 見切り発車

そんな訳で、論文に載っている例題の結果を再現出来ませんでしたが、ボードゲーム用の自然TD学習エージェントを実装中。 と言うか、既に昨夜から実装していて、残りはパラメータ更新部分を実装すれば完了です。 とりあえず4x4リバーシで動かしてみて、PGLeaf…

Atom C2000シリーズ発表

http://pc.watch.impress.co.jp/docs/news/20130905_614086.html Atom C2570は8コア・2.4GHz(ターボ時2.6GHz)、メモリはDDR3でMAX 64GB。 価格は1000個ロット時で$171らしいので、これを載せたMini-ITXマザーが出てくれば面白そうですね。 ただ、それなり…

先日書いた論文

https://library.naist.jp/mylimedio/search/av1.do?target=local&bibid=83407 修士論文版が公開されていました。 色々加筆してありますし、これを読んで理解深めるのが良いかな。 ちなみに練習用にコード書いてるんですが、まだ特定条件(パラメータ)でし…

なんか、今日は調子出ないなぁ

よし、ここは思い切って明日やる事にしよう。 てな訳で、論文を読み返しつつ酔っ払う事にします。