NT-D実装中

開発日記

あ、間違えた、N-TD（Natural-Temporal Difference Learning）です。昨日書いた論文の手法。 http://ci.nii.ac.jp/naid/110003234178 にしても、この論文は異様にレベル高い気がします。従来手法の問題点を解消しつつ、提案手法のアルゴリズムはシンプルに…

2013-09-03

Core i7-4960X発表

コンピュータ関連

http://pc.watch.impress.co.jp/docs/news/20130903_613761.html Ivy Bridge-Eな6コアで、クロックは定格3.6GHz・MAX 4GHz。前モデルのi7-3970Xと比べると、定格クロックを伸ばしつつTDPは下がっていますので、これはプロセスシュリンクの恩恵でしょう。性…

2013-09-03

↑の論文

開発日記

とりあえずざっと読んでみました…が、どうも私の想像していたのとは違う感じのアルゴリズムでした。ただ、まだ定理とか証明とかは理解出来ていないものの、アルゴリズム自体は私でも実装出来そうな感じです。ついでに言うと、私のアイデアより遥かに実践的…

2013-09-03

自然 TD 学習 : 割引報酬における TD 誤差を利用する自然方策勾配に基づいた強化学習法

開発日記

http://ci.nii.ac.jp/naid/110003234178 ひょっとしたら今やろうとしている事と方向性が同じかもしれないので、購入して読んでます。てか、方向性が同じで遥か先に行ってたらどうしよう。嬉しい様な、困る様な。電王トーナメントまで残り僅かな時間で、果…

2013-09-02

え〜

開発日記

「限りなく黒に近いグレー」は「白」でした。てか、データの見方を間違ってました。確率統計が苦手なのがモロに出た感じですね。 …はぁ、これが「黒」だったら一気に進展したかもしれないのに…

2013-09-02

続・方策がバグってる疑惑

開発日記

「限りなく黒に近いグレー」な現象を発見。てかこれ、かなり致命的な気が。適当に実装してロクにテストしていなかったツケがこんな形で出るとは…

2013-09-02

さて

開発日記

ネット巡回とバックアップは終わったし、そろそろ開発タイムです。とりあえず、方策のバグらしきものを調査してみますか。

2013-09-01

棋譜を使用した学習の実装中

開発日記

大体の所は完成して、バグもボチボチ減ってきています。つー訳で、学習用マシンで学習させつつ、開発用マシンでテスト（アサーション有効にして）。今のペースだと、収束するのは明日夜か明後日位かな？気長に待ちつつデバッグでもする事にします。

2013-08-31

方策がバグってる疑惑

開発日記

なんか、選択された手のπを眺めてると、かなり低めの手が選ばれてる傾向があります。具体的に数値で言うと、一局通しての選ばれた手のπの平均が0.4前後。 …バグだろうなぁ。てか、バグであって欲しい。そうなら修正しようがあるから。

2013-08-31

何なんだろう、この現象

開発日記

実験的に、PGLeafで終局まで棋譜の通りに指して学習するってのをやってます。棋譜の数はとりあえず10個で。んで、大体バグが取れてきて勝った側の一致率が上昇傾向にあるのですが、何故か一致率のグラフが周期的に上下しています。う〜ん、何が原因なんだ…

2013-08-28

棋譜を使った学習を実装中

開発日記

序盤はプロ棋士の棋譜を多少使いつつ、中盤以降は強化学習（自己対戦）で学習させる様にしてみました。えぇ、Seleneさんのアピール文書にあるアルゴリズムそのままです、はい。西海枝さんに感謝。現在学習中で、明日朝に連続対戦を仕込んで出社、返ってき…

2013-08-28

あんまりワクワクしないなぁ…

コンピュータ関連

http://pc.watch.impress.co.jp/docs/column/kaigai/20130828_612950.html http://pc.watch.impress.co.jp/docs/news/event/20130828_613010.html POWER・SPARCの次世代CPUに関する記事がPC Watchに載ってました。コア数とかキャッシュ・メインメモリ容量、…

2013-08-27

適格度トレースの実装完了

開発日記

これでTDLeaf(λ)になりました。んで、前に方策勾配法でやったのと同じ評価項目で、TDLeaf(λ)を使って学習中。明日朝にはある程度収束していると思うので、そしたらsspとスパーリングです。

2013-08-26

TDLeaf実装中

開発日記

まだ適格度トレース無しのTDLeaf(0)ですが。んで、とりあえずエラーにならずに動く様にはなったので、ちょっと気が早いけど学習用マシンに投入。一晩走らせてみて、調子良さそうなら明日夜にでもfloodgateに投入します。

2013-08-25

将棋電王トーナメントにエントリーしました

開発日記

とりあえず勢いで。さーて、当面の目標も決まったし、頑張って開発しますか。

2013-08-23

アホか

雑記

http://headlines.yahoo.co.jp/hl?a=20130823-00000553-san-soci 「報道目的で、かつ反省していれば法を犯してもOK」って判断ですか。ふ〜ん、へ〜、ほ〜、凄いなぁ（棒）

2013-08-22

入玉関連の評価項目を追加完了

開発日記

なんか、すっごい基本的なバグ（筋と段を取り違えてたり、入玉判定時に見る手番がおかしかったり）はありましたが、とりあえず完了とします。んで、現在は学習用マシンで本命の学習を走らせつつ、開発用マシンでアサーション有効・ログ出力有りで並行してテ…

2013-08-22

ThinkPad X220のドライブをSSDに換装

コンピュータ関連

キングストン Kingston SSD 120GB 2.5インチ SATA3 MLC NAND採用 SSDNow V300 3年保証 SV300S37A/120G出版社/メーカー: キングストンテクノロジー発売日: 2016/09/30メディア: Personal Computersこの商品を含むブログ (3件) を見る 7mm厚で120GB以上の最安…

2013-08-21

なんか、入玉率低いなぁ…

開発日記

前（Ver.6）は自己対戦すると、1〜2％は入玉していました。特に、学習開始直後は入玉しやすい傾向にありました。それが、今（Ver.7）は対局開始から2000局で入玉は一回も無し。それも、探索の内部ノードで入玉する事すら無いので、以前とはかなり傾向が違…

2013-08-21

入玉勝ち宣言のみ実装完了

開発日記

評価項目は時間が足りなかったので、明日以降に持ち越し。とりあえずちゃんと宣言勝ち出来るのは確認したので、評価関数の方もチャチャッとやっちゃいましょう。早いうちに。それから、予算を考慮しつつ来年の選手権用マシン兼学習用マシンのプランを検討…

2013-08-21

とりあえず現状の課題

開発日記 TODO

評価項目の追加三駒相対位置関係王将の移動可能範囲入玉関連入玉勝ち宣言の実装局面の特殊な状態の認識持ち駒優劣関係のある局面盤面が同一で手番だけ異なる局面詰将棋ルーチンの追加まずは入玉関連の評価項目追加＆入玉勝ち宣言の実装かな。今日す…

2013-08-21

さて、どこから手を付けようか

開発日記

ノイズ付加探査は現在4x4リバーシでメタパラメータの調整中。となると、それはひとまず置いといて、盆休みに出来なかった評価項目の追加に着手すべき？それとも、既存の評価関数・探索ルーチンのデバッグ？ …一度TODOを整理してみますか。

2013-08-21

将棋電王トーナメント

コンピュータ将棋

http://ex.nicovideo.jp/denou/ 11/2〜4にトーナメントを行い、上位5チームが来年の電王戦出場権獲得可能、と。将棋のルール的な部分はほぼ選手権通りだから、プログラムの大幅改良は不要ですね。例えばトライルール採用とかだと、電王トーナメント用にコ…

2013-08-19

おかしい…

開発日記

4x4リバーシでノイズ付加探査無しの学習をやってますが、初期値次第で収束したりしなかったり。早い時は10ステップ（1000局）で収束するのに、ワーストケースだと100ステップ経っても収束しない。これはどっかバグってるか、温度とかのパラメータ調整をミ…

2013-08-19

Atom J2850が価格表に

コンピュータ関連

http://files.shareholder.com/downloads/INTC/2642138738x0x682881/96E59F6B-D0BB-414B-A7B2-9CDFF770A0FB/Copy_of_Aug_11_13_Recommended_Customer_Price_List.pdf 一時はPentiumブランドになるとかって噂もありましたが、結局Atomになるみたいですね。ス…