GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2012-05-01から1ヶ月間の記事一覧

面白そうな論文発見

強化学習による探索行動の学習 強化学習における「探査と知識利用のバランスのとり方」は、大抵は「いかに上手く乱数を使うか」って方向で検討されている様です*1。私が知っている限りでは、唯一の例外はUCB1ですが、あれは状態行動対の数が少なくないと使え…

土日やった事まとめ

ログを分析してみるも、どこにも異常らしき現象は発見出来ず。 それから、ボルツマン分布のテストも問題無し。ほぼ期待値通りの結果になっていました。 んで、後の時間は論文読み。 インクリメンタルサポートベクターマシンによる価値関数の学習 これは正直…

とりあえずログは集まったんで

まずはこれを分析してみます。どこがどうなって今の挙動になっているのかが分からないと、どうにも手の打ちようが無いですから。

やっぱりおかしい

自己対戦時に、初手で2,3,7,8筋の歩を突く手の試行確率と評価値のグラフです。横軸は対局数÷100です。 んで、評価値グラフを見ると2,8筋と3,7筋の手の評価値はほぼ平行になっています。試行確率のグラフもそれを反映した形ですね。 どうやってパラメータ…

データ収集コードを追加

将棋の学習時に初手毎の勝率と平均報酬をログに残す機能を追加。とりあえず一晩走らせて様子見です。 それから明日の自分へのTODO > ボルツマン分布が正常に計算出来ているかチェック。

Blunderさんに勝ってる!

・・・と思ったら、Illegal Moveだった。 打ち歩詰めでもなさそうだし、何やらかしたんだろう? 気になる。 あ、Rゴチになりました>ak11さん

初手の分布を調べてみた

本将棋での方策勾配法での自己対戦学習で、初手で何を指してるか調べてみました。 んで、学習初期は2六歩が6割で8六歩が3割前後、学習が進むと7六歩が9割の3六歩が1割前後。 …って、8六歩とか3六歩って何かおかしいな。最善手と次善手が左右対称になっ…

地味〜に進行中

方策勾配法とTD(λ)で色々条件変えてデータ採取&分析。 …駄目だ、データ見ても正常か異常か判断つかん。 困った。

方針に迷う

このまま方策勾配法で行くか、TDLeaf(λ)に戻るか。 三目並べで実験した限りだと、TDLeaf(λ)の方が扱いが楽と言うか、挙動が把握しやすいと言うか、そんな感触はあります。ただ、それだとチェスの前例をなぞってるだけなんでちょっと面白みが無いかな〜、とい…

チマチマと実装中

まずは三目並べまで戻って、方策勾配法エージェントのデバッグをしてます。 んで、それに関連してチョコチョコとコード書いたり何やかんやと。地味〜に時間がかかって大変です。

ドコモの夏モデルスマートフォン

http://www.datacider.com/25395.php 1.5GHzのデュアルコアCPUで(多分私の用途では)ムダに高性能! しかも防水・防塵仕様!! 置くだけ充電にも対応!!! そして安心のXi対応!!!! 当然Android 4.0搭載!!!!! 私の欲しい要素が全部詰まってるんで…

Piledriverコア採用のTrinity情報

http://pc.watch.impress.co.jp/docs/column/kaigai/20120515_532796.html とりあえず解説記事はこちら。ざっと書くと、従来のAシリーズのK10 CPUコア+VLIW5 GPUコアって構成から、Piledriver*1 CPUコア+VLIW4 GPUコアって構成に変わったみたいです。 んで…

ムーブオーダリングと探索時間の関係

http://d.hatena.ne.jp/Gasyou/20120506/1336291383 以前書いた記事の追試です。前回は特定の局面でしたが、今度は適当な棋譜1局通しての値です。 129手で終局しているので、40手までを序盤・41〜80手までを中盤・それ以降を終盤として扱いました。 実験方法…

復帰しました

http://wdoor.c.u-tokyo.ac.jp/shogi/view/show-player.cgi?event=LATEST&filter=floodgate&show_self_play=1&user=Gasyou_Atom-D510_1c2t 基本的には第22回選手権時と同じですが、floodgate向けの微調整と昨日書いた思考時間制御の追加を行なっています。 ……

終盤用思考時間制御

http://d.hatena.ne.jp/Gasyou/20120507/1336402390 id:sakurapyonさんのコメントで気づいた事を修正。 前提条件として「自分の残り時間が相手より多い」とします。 で、基本方針は「自分の残り時間を相手の残り時間で均等に割って考える。ただし、端数は出…

評価項目の追加完了

「3マス×3マスのタイル内での3駒の位置関係(PPP)」を実装しました。 と言うか、数日前に一度実装したはいいけどやたら複雑でバギーなコードだったんで、心機一転書き直しました。 頑張れば差分計算可能でしょうが、まずは様子見って事で差分計算無しにして…

最近読んだor買った本

まず選手権会場でフライングゲットした進歩本。コンピュータ将棋の進歩 6 -プロ棋士に並ぶ-作者: 松原仁出版社/メーカー: 共立出版発売日: 2012/05/09メディア: 単行本購入: 1人 クリック: 10回この商品を含むブログ (12件) を見る まだ1ページも読んでない…

今日は早めに帰ってこれたので

今から開発します。時間は23時までとして、実装45分・テスト1時間でバッファ15分て所でしょうか。設計は電車の中でやりましたから、多分大丈夫なはず。 あ、それからタイトル変えました。飽きるまで毎日変えるつもりです。

超適当なTD法の解説

選手権でも布教してきたんですが、TD法の解説が意外と受けが良かったのでここで解説してみます。 まず、制御問題への応用はザクっと切り捨てて、下記の様な単純な条件下での動作を説明します。 また、基本的に専門用語については解説しませんが、これはググ…

ブログのタイトル変えました

http://d.hatena.ne.jp/minute_hand/20120506/1336310643 なんとなくツツカナさんに影響されて、変えてみたくなっちゃって。 ついでに、はてなダイアリーの設定上タイトルの文字数制限があるかどうか気になったので、ムダに長くしてみました。 …これはひょっ…

DDR4メモリモジュール、今年末から量産開始らしい

http://blog.livedoor.jp/amd646464/archives/52276407.html 実際の発売は来年頭でしょうが、どこが採用するんでしょうかねぇ。 http://blog.livedoor.jp/amd646464/archives/52269746.html Intel CPUだとマルチソケット向けのHaswell-EXが最初って話ですし…

C++のTemplateを用いた評価関数の評価・学習ルーチンの実装

選手権では「選手権後にパラメータ学習を始めたい」って人が何人かいて、じゃぁ評価関数の実装をどうしよう? って話をしていました。 んで、「それならGPS将棋なりBonanzaなりKnightCapなりのソース読めば良いんじゃね?」だと芸がないので、GA将では色々試…

相手の残り思考時間を基準とした、終盤の思考時間制御

選手権時に参加者の人と話してて出たアイデアなんですが、終盤の「1秒将棋モード」を相手の思考時間を考慮する事で改善出来るのではないかと。 まず大前提として、選手権は25分切れ負けで、一手当たり最低1秒は消費します。 で、例えば自分の残り時間が90秒…

時間が無い

今までは毎日定時上がりだったんですが、ここ1,2週間ほど忙しいです。 んで、コード書いたりブログ書いたり色々したいんですが、なかなか時間が取れません。 まぁ、土日は休めてるんで、そこでガッ!とまとめてやればいいんですが… 1日が30時間位あればいい…

上でテストしたと書いた局面

+---+---+---+---+---+---+---+---+---+ |v香|v桂| | | | |v王|v桂|v香| +---+---+---+---+---+---+---+---+---+ | | |v金| | | |v金| | | +---+---+---+---+---+---+---+---+---+ | | |v歩| |v歩|v歩| |v歩|v歩| +---+---+---+---+---+---+---+---+---+ |v…

探索で悩む

試しにAspiration Search風*1に改造して上記局面で探索させると、またもや2倍程度の高速化という結果に。 ちゃんとウィンドウから外れたら最探索する様にして、ウィンドウ幅を調整すればもうちょっと別のデータが出るかもしれませんが、少なくとも2〜3手深く…

探索深さと思考時間の関係

手持ちの棋譜から適当に一局選んで、50手目の局面で反復深化で1手〜6手まで読ませてみました。んで、この時「…深さnで読む→もう一度深さnで読む→深さn+1で読む…」と、各深さで2回読む様にしました。 これだと、2回目の探索ではほぼ100%ハッシュヒットし、理…

第22回世界コンピュータ将棋選手権の感想&今年の展望

個人的には選手権が「1年の境目」なので、タイトルの“今年の展望”は次回選手権までの…というつもりです。 一次予選 GA将!!!!!の戦績は5勝2敗の4位。勝ち越しすら危ういと思っていたのに、まさかの二次予選進出です。勝負は時の運といいますし、今回の結果は…

WCSC22終了

運営・協力等して頂いた皆様、ありがとうございました。おかげさまで、充実した三日間を過ごす事が出来ました。 また、参加された皆様、お疲れ様でした。対局相手の皆様には、GA将!!!!!が変な手ばかり指して混乱させてしまって、本当にすいません。来年こそ…

現在帰宅途中

家に帰るまでが選手権です。 事故とか気を付けます。