GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2008-01-01から1ヶ月間の記事一覧

MTD(f)実装開始

とりあえず既存のαβで探索するクラスを小規模修正してMTD(f)にするつもりが、読み抜けがあって全然進んでないです。 んで、何を修正したかったかと言うと、手の配列を先頭から順に読んでいく部分。 通常探索と静止探索1段目・2段目、それから通常探索でハッ…

まもなく1月終了

ああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああ誰か時間をくれ。 一日が48時間になるなら獣耳もシッポも眼鏡もツンデレも我慢します。だからだれ…

将棋関連 デバッグ 将棋で使う為に強化学習関連のクラスをC++に移植 TDLeaf(λ) αβの高速化 ← ここまで1月中 ← どー考えても無理っす ← あと4時間でMTD(f)を実装しろと? MTD(f) 【保留】反復深化 ハッシュ 【保留】実現確率探索 OR ABC探索 メタ強化学習のC+…

DDR3への移行時期

http://pc.watch.impress.co.jp/docs/2008/0131/kaigai413.htm 今年後半にはハイエンドPCで採用出来る程度の価格になって、ミドルレンジでは来年になりそうな感じですね。 まぁ、NehalemファミリのBloomfield*1・Lynnfield*2とは大体時期が合いますし、個人…

高速電脳が倒産らしい

http://www.watch.impress.co.jp/akiba/hotline/20080202/etc_kosoku.html ほとんど利用した事は無かったんですが、こういう小規模でマニアックな店が逝っちゃうのは寂しいですね。 と言うか、小物を探す時は大抵ここのウェブサイトを見てたんで、これからど…

デバッグモードだと遅いなぁ

とか思ってたら、テスト用に標準入力から読み込むコードのままでした。 何の為にタスクマネージャを常時表示してるんやねん とか この失敗、人生でもう10回はやってるなぁ とか考えると、マジでへこみます。

と言う事で、今日の修正はほぼ0

Excelでパラメータを見る時の関係で、パラメータファイルの書式を少し変えました。 と言うか、書き出しだけは一昨日に修正済みで、今日は読み込みを修正しただけ。 他にはパラメータをグラフにして見やすくしたりとかで、今日は学習関連は全く触っていません…

王将周辺の利きの評価は効果ある模様

とりあえず「自分の利きがあると良い」「相手の利きがあると悪い」位は学習した模様。自分の利きは玉頭方向2〜3段と真横が高めになっていました。 パラメータの値も基本的には王将に近いほど絶対値が大きいので、割とまともに見えます。 ただ、左右非対称だ…

Nehalemの性能

http://pc.watch.impress.co.jp/docs/2008/0129/kaigai412.htm 3GHzのクアドコアXeonとデュアルCPU構成で比較して、特定のベンチマークで整数演算1.6倍、浮動小数点演算2.4倍とか。 ただ、これは性能向上率の高いベンチを選んでるからこういう数字になる可能…

ちょっとだけ

コンソールに垂れ流しているログをふと見てみると、二局続けて同じ投了図でした。 って、ちゃんと学習してるんだろうか・・・

風邪風邪ひきひき

てな訳で今日は開発はお休みします。# 中尾さんから2週間遅れでやっと流行に追いついたZe!!

やばいやばい

修正してコンパイルまではしたんだけど、学習を実行しておくのを忘れてました。 忘れたままだと学習用マシンが一日遊ぶ事になるんで、スケジュールを考えるとやばいところでした。

今日やった分を反映

将棋関連 デバッグ 将棋用の評価関数の実装 駒割 絶対位置による評価 王将との相対位置による評価 王将の動ける範囲 王将周辺の利きの数 二駒の位置関係 反転パターンに対処したら有効にする 将棋で使う為に強化学習関連のクラスをC++に移植 TDLeaf(λ) αβの…

王将周辺の利きの評価を修正

先後共通のパラメータを増やして、例えば先手の玉頭*1と後手の玉頭*2のパラメータを共通にしました。 つーか、何で最初からそうしないんだって話ですね。うぃ、手抜きが過ぎました。 んで、修正したんでリコンパイルして王将周辺の利きの評価を有効に。見る…

悩んでてもどうにもならないし

とりあえず積み残しだった王将周辺の利きの修正をします。 それが終わったら上手く行く可能性・・・は低いよなぁ・・・・・

二日分。訳分からん。

id:streakeagle:20080126:1201351787で書いた駒割の修正をした結果。 結局学習率0.001がベストっぽいというのは変わらないものの、結果をどう見るべきか迷っています。 まず、駒割はちゃんと学習出来ました。 よって、「駒割や王将移動範囲の評価で使ってい…

USB接続の8インチモニタ

http://www.watch.impress.co.jp/akiba/hotline/20080126/etc_spf83h.html って事は、Wireless USBと組み合わせれば“ワイヤレスUSBモニタ”が実現可能、と。 選手権でログ表示のウィンドウだけ持ち歩きたい、とかって用途に使えそうですね。 ただ、電源がACア…

Radeon HD 3870 X2

http://pc.watch.impress.co.jp/docs/2008/0128/amd.htm AMDってホントにX2が好きなんですね。とかは置いといて。 型番から分かる様に、3870が2つ載ってるカードらしいです。 Athlon 64と64 X2みたいな関係? ちょっと違いますか。 欲しいなぁ・・・誰か私…

PSプリンタで動くLisp

http://blog.bugyo.tk/lyrical/2008/01/_lisp.html 以前書いた(様な気がする)リリカル☆Lispの開発者の方が、PostScriptプリンタで動くLispなんつーものを開発しちゃったそうです。 という訳で、誰か選手権にプリンタで参戦して下さい。言語はもちろんLisp…

UCBとGAを組み合わせた方策による、探索を制御するパラメータの学習

自己対戦による強化学習を前提とします。 評価関数のパラメータはTDLeaf(λ)等のアルゴリズムで学習出来ますが、αβ法での探索を制御するパラメータ*1は微分が難しい*2ので、どうやって学習させればいいか決めかねていました。 で、以下の様な流れで学習できな…

モンテカルロ法を用いた5五将棋システム

http://ci.nii.ac.jp/naid/110006345248/ HIT将棋さんの研究室でやっていたみたいですね。ついさっき知りました。 ゲーム情報学研究会に準会員登録してあるからPDFの閲覧出来そうですし、明日にでもユーザ登録してみます。 となると、やはり小宮さんの「猛将…

Laramie

表題の名前のソフトがデビューしていますね。 公式サイトはこちら、ソースは将棋所のサポート掲示板。 公式サイトにある特徴を見てみると探索に力を入れているみたいですね。なんというか“今風”のソフトなんでしょう。 ただ、指し手の生成は深さ・反復回数に…

ホロかわいいよホロ

獣耳だけでもイイのにシッポがあると威力倍増です。

参加者リストがMLに流れてました

これってブログで書いてもいいネタなんだっけ? とりあえずなのはさん自重とかHIT将棋が“with HIT”になってるとか色々あるんですが、一番はA級リーグ指し手1号さん。CPU独自開発はインパクトでかいっす。

駒割の処理を修正

今までは盤上の駒を1一〜9九まで順に見ていたのですが、駒情報テーブル*1の情報を参照して処理する様に修正。 これで駒情報テーブルを見るかどうかと使用頻度の高低の組み合わせが増えるので、パラメータが変になる原因の切り分けが多少楽になるかと思いま…

四日分ぐらい

まず学習率。駒の価値の変化をグラフで見てみました。 0.1はグラフが暴れすぎ*1で、0.01は少し暴れる。0.001は暴れないけど収束にもう少し時間がかかるかな、という感じです。 んで、学習率0.001の他のパラメータですが、駒割と王将の移動範囲は割とちゃんと…

論理流転のGA将!!!

http://pha22.net/name2/c/GA%E5%B0%86%21%21%21 何とかメーカーってのは色々ありましたが、これは結構ツボです。

VIAのIsaiah

http://pc.watch.impress.co.jp/docs/2008/0124/ubiq208.htm Intel・AMDに次ぐ(多分)第3のx86CPUメーカであるVIAですが、今年第2四半期にIsaiahというコードネームのCPUを投入するそうです。 特徴としては 現行のC7と同等の消費電力 Out of Order Merom*1…

評価関数にバッチ更新モード実装

評価関数*1の更新にはオンラインとバッチ*2の二種類があります。 オンラインはTD誤差やλ収益を計算するたびに(=ある状態の価値の目標値を計算するたびに)更新する方法。バッチは修正量を累積していって、最後に一エピソード*3分を全部まとめて更新する方…

オプティミスティック初期値は効果無し

絶対位置・相対位置の評価はほぼ初期値のままでした。 となるとその辺の評価項目にバグがあるか、使用頻度の低いパラメータの学習が遅いか、その辺だと思います。 ただ、五日間で約四万局だったので、学習が遅いといってもいくらなんでも多少はパラメータに…