GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2013-01-01から1年間の記事一覧

NT-D実装中

あ、間違えた、N-TD(Natural-Temporal Difference Learning)です。昨日書いた論文の手法。 http://ci.nii.ac.jp/naid/110003234178 にしても、この論文は異様にレベル高い気がします。 従来手法の問題点を解消しつつ、提案手法のアルゴリズムはシンプルに…

Core i7-4960X発表

http://pc.watch.impress.co.jp/docs/news/20130903_613761.html Ivy Bridge-Eな6コアで、クロックは定格3.6GHz・MAX 4GHz。 前モデルのi7-3970Xと比べると、定格クロックを伸ばしつつTDPは下がっていますので、これはプロセスシュリンクの恩恵でしょう。 性…

↑の論文

とりあえずざっと読んでみました…が、どうも私の想像していたのとは違う感じのアルゴリズムでした。 ただ、まだ定理とか証明とかは理解出来ていないものの、アルゴリズム自体は私でも実装出来そうな感じです。 ついでに言うと、私のアイデアより遥かに実践的…

自然 TD 学習 : 割引報酬における TD 誤差を利用する自然方策勾配に基づいた強化学習法

http://ci.nii.ac.jp/naid/110003234178 ひょっとしたら今やろうとしている事と方向性が同じかもしれないので、購入して読んでます。 てか、方向性が同じで遥か先に行ってたらどうしよう。嬉しい様な、困る様な。 電王トーナメントまで残り僅かな時間で、果…

え〜

「限りなく黒に近いグレー」は「白」でした。 てか、データの見方を間違ってました。確率統計が苦手なのがモロに出た感じですね。 …はぁ、これが「黒」だったら一気に進展したかもしれないのに…

続・方策がバグってる疑惑

「限りなく黒に近いグレー」な現象を発見。 てかこれ、かなり致命的な気が。 適当に実装してロクにテストしていなかったツケがこんな形で出るとは…

さて

ネット巡回とバックアップは終わったし、そろそろ開発タイムです。 とりあえず、方策のバグらしきものを調査してみますか。

棋譜を使用した学習の実装中

大体の所は完成して、バグもボチボチ減ってきています。 つー訳で、学習用マシンで学習させつつ、開発用マシンでテスト(アサーション有効にして)。 今のペースだと、収束するのは明日夜か明後日位かな? 気長に待ちつつデバッグでもする事にします。

方策がバグってる疑惑

なんか、選択された手のπを眺めてると、かなり低めの手が選ばれてる傾向があります。 具体的に数値で言うと、一局通しての選ばれた手のπの平均が0.4前後。 …バグだろうなぁ。てか、バグであって欲しい。そうなら修正しようがあるから。

何なんだろう、この現象

実験的に、PGLeafで終局まで棋譜の通りに指して学習するってのをやってます。棋譜の数はとりあえず10個で。 んで、大体バグが取れてきて勝った側の一致率が上昇傾向にあるのですが、何故か一致率のグラフが周期的に上下しています。 う〜ん、何が原因なんだ…

棋譜を使った学習を実装中

序盤はプロ棋士の棋譜を多少使いつつ、中盤以降は強化学習(自己対戦)で学習させる様にしてみました。 えぇ、Seleneさんのアピール文書にあるアルゴリズムそのままです、はい。西海枝さんに感謝。 現在学習中で、明日朝に連続対戦を仕込んで出社、返ってき…

あんまりワクワクしないなぁ…

http://pc.watch.impress.co.jp/docs/column/kaigai/20130828_612950.html http://pc.watch.impress.co.jp/docs/news/event/20130828_613010.html POWER・SPARCの次世代CPUに関する記事がPC Watchに載ってました。 コア数とかキャッシュ・メインメモリ容量、…

適格度トレースの実装完了

これでTDLeaf(λ)になりました。 んで、前に方策勾配法でやったのと同じ評価項目で、TDLeaf(λ)を使って学習中。 明日朝にはある程度収束していると思うので、そしたらsspとスパーリングです。

TDLeaf実装中

まだ適格度トレース無しのTDLeaf(0)ですが。 んで、とりあえずエラーにならずに動く様にはなったので、ちょっと気が早いけど学習用マシンに投入。 一晩走らせてみて、調子良さそうなら明日夜にでもfloodgateに投入します。

将棋電王トーナメントにエントリーしました

とりあえず勢いで。 さーて、当面の目標も決まったし、頑張って開発しますか。

アホか

http://headlines.yahoo.co.jp/hl?a=20130823-00000553-san-soci 「報道目的で、かつ反省していれば法を犯してもOK」って判断ですか。 ふ〜ん、へ〜、ほ〜、凄いなぁ(棒)

入玉関連の評価項目を追加完了

なんか、すっごい基本的なバグ(筋と段を取り違えてたり、入玉判定時に見る手番がおかしかったり)はありましたが、とりあえず完了とします。 んで、現在は学習用マシンで本命の学習を走らせつつ、開発用マシンでアサーション有効・ログ出力有りで並行してテ…

ThinkPad X220のドライブをSSDに換装

キングストン Kingston SSD 120GB 2.5インチ SATA3 MLC NAND採用 SSDNow V300 3年保証 SV300S37A/120G出版社/メーカー: キングストンテクノロジー発売日: 2016/09/30メディア: Personal Computersこの商品を含むブログ (3件) を見る 7mm厚で120GB以上の最安…

なんか、入玉率低いなぁ…

前(Ver.6)は自己対戦すると、1〜2%は入玉していました。特に、学習開始直後は入玉しやすい傾向にありました。 それが、今(Ver.7)は対局開始から2000局で入玉は一回も無し。 それも、探索の内部ノードで入玉する事すら無いので、以前とはかなり傾向が違…

入玉勝ち宣言のみ実装完了

評価項目は時間が足りなかったので、明日以降に持ち越し。 とりあえずちゃんと宣言勝ち出来るのは確認したので、評価関数の方もチャチャッとやっちゃいましょう。早いうちに。 それから、予算を考慮しつつ来年の選手権用マシン兼学習用マシンのプランを検討…

とりあえず現状の課題

評価項目の追加 三駒相対位置関係 王将の移動可能範囲 入玉関連 入玉勝ち宣言の実装 局面の特殊な状態の認識 持ち駒優劣関係のある局面 盤面が同一で手番だけ異なる局面 詰将棋ルーチンの追加 まずは入玉関連の評価項目追加&入玉勝ち宣言の実装かな。今日す…

さて、どこから手を付けようか

ノイズ付加探査は現在4x4リバーシでメタパラメータの調整中。 となると、それはひとまず置いといて、盆休みに出来なかった評価項目の追加に着手すべき? それとも、既存の評価関数・探索ルーチンのデバッグ? …一度TODOを整理してみますか。

将棋電王トーナメント

http://ex.nicovideo.jp/denou/ 11/2〜4にトーナメントを行い、上位5チームが来年の電王戦出場権獲得可能、と。 将棋のルール的な部分はほぼ選手権通りだから、プログラムの大幅改良は不要ですね。 例えばトライルール採用とかだと、電王トーナメント用にコ…

おかしい…

4x4リバーシでノイズ付加探査無しの学習をやってますが、初期値次第で収束したりしなかったり。 早い時は10ステップ(1000局)で収束するのに、ワーストケースだと100ステップ経っても収束しない。 これはどっかバグってるか、温度とかのパラメータ調整をミ…

Atom J2850が価格表に

http://files.shareholder.com/downloads/INTC/2642138738x0x682881/96E59F6B-D0BB-414B-A7B2-9CDFF770A0FB/Copy_of_Aug_11_13_Recommended_Customer_Price_List.pdf 一時はPentiumブランドになるとかって噂もありましたが、結局Atomになるみたいですね。 ス…

よし、修正完了

1エージェントでザックリ動かした感じだと、修正前より収束が早くなってる感じです。 という訳で10エージェントで大まかな結果を出して、そっから分散系数を絞り込んで一晩走らせますか。

あ、上の結果間違ってた

ノイズの更新をするタイミングがおかしかったです。 という訳で今から修正&データとり直し。寝るまでに9通りの結果、出せるかな?

と、いう訳で

新アルゴリズム*1のノイズ付加探査を実装&軽く動作確認も兼ねてテスト。 んで、結果です ↓(クリックで拡大) 4x4リバーシで、探索深さ3手で学習した評価関数と、完全読みプレイヤーを対局させた結果です。 学習は各設定(分散系数)で乱数のシードを変えつ…

結局

上記の問題は「リバーシ用評価関数の精度不足」って結論になりました。 リバーシでは初手は4手あるのですが、どの手を指しても対称な形になります。 で、4手全ての価値を正しく評価するには、評価関数の精度が不足してるのではというのが現在の考えです。 つ…

状況の整理

アサーションに引っかからないので、配列の領域オーバーアクセスとかっていう単純なバグでは無さそう。 それと、対局数を増やしても探索深さ1の後手はNGだったので、収束が遅いって線も消えた。 となると、PGLeafエージェントで後手特有の処理をしている部分…