GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2011-09-01から1ヶ月間の記事一覧

BulldozerのOC耐性は高い?

http://nueda.main.jp/blog/archives/005834.html FX-8150のエンジニアリングサンプルを使ってOCのワールドレコードが更新されたらしいです(8.429GHz)。 さすがにこのクロックでの常用は無理でしょうが、ちゃんと冷却してやればクロック上がりやすい、とか…

進行度の計算方法

を調べてるんですが、特徴のとり方は大体把握出来たけど、肝心の計算方法がさっぱり。私の探し方が悪いのかなぁ… まぁ、簡易版Bonanza Methodやってた時に集めた棋譜が大量にあるから、それを教師にして適当に学習させればそれなりの進行度計算ルーチンにな…

新人さんのブログ発見

http://d.hatena.ne.jp/hiyokoshogi/ “ひよこ将棋”というソフトの開発者さんの様です。今年8月23日にブログ開設だから、3週間ほど気付かなかったって事になりますね(いつもはRSSリーダがこういう情報を拾ってきてくれるのですが…)。 どうやらモンテカルロ…

肝心なの忘れてたんで追加

&優先度を色々変更。 シグモイド関数無しでの方策勾配法 実装は完了。現在テスト中。 レポート収集系の整理 パラメータのセーブ・ロードまわりのテスト ※問題無し NumericVectorクラスの高速化(プロファイルとって、学習が高速化出来そうなら着手) ※遅く…

よしよし、イイ感じ

上で書いた結果は諸事情によりソフトマックス方策の初期温度低めで開始してたんですが、本番の学習と同じ様に温度高めで開始しても、それなりに王将周りに駒を集める様になりました。 2610局終了 +---+---+---+---+---+---+---+---+---+ | | | | | | | | | |…

囲ってるつもり?

昨夜から走らせていた、対局開始から50手だけを学習対象とするバージョンですが、「王将の周りに駒を集めれば勝ちやすい」位は理解したみたいです。 終局図は例えばこんな感じになります。 8260局終了 +---+---+---+---+---+---+---+---+---+ | | | |^と| | …

ちょっと進展?

方策勾配法での本将棋の学習が、ちょっと進んだかもしれません。 ふと「評価関数の能力不足で、序盤と終盤の学習が両立出来ないのかも」と思い、初手〜50手目までを学習対象としてみました(それ以降は、終局まで指すけど方策勾配の計算をしない)。 んで、5…

探索深さを色々変えて実験中

方策勾配法+ソフトマックス方策+αβ探索で4x4のリバーシを先手のみ学習中。 んで、探索深さと最適方策との誤差の関係を測定してるんですが、何か変な現象が。深さ4〜5で一旦誤差が1を切って、深さ6だと今度は誤差が8に増えてます。 テストが10,000局*10セット…

ソフトマックス方策の温度・目標探査率と平均誤差の関係

方策勾配法+ソフトマックス方策+線形評価関数で、4x4リバーシの先手のみ学習時の最適方策での報酬と実際の報酬の誤差を調べてみました。 実験条件は、10,000局を1セットとして各設定で10セット学習し、その平均値です。 温度と平均誤差の関係は、CSVファイル…

ちょこっと追加&修正

シグモイド関数無しでの方策勾配法 実装は完了。現在テスト中。 レポート収集系の整理 パラメータのセーブ・ロードまわりのテスト ※問題無し パラメータ・条件を色々変えてデータ採取 全自動連続対局環境の構築 温度も方策勾配法で学習してみる ソフトマック…

設定色々変えて試してみました

とりあえず方策勾配法で4x4リバーシの片一方プレイヤーだけ学習が上手く行くのを目標にします。 んで、比較対象としてTDLeaf(λ)の方で片一方だけ学習。結果、先手も後手も方策勾配法と変わらない結果(NG)になりました。 それと、今まで方策勾配法では探索…

GAと強化学習のハイブリッド構成ってのもやってみようかな

http://www.logos.ic.i.u-tokyo.ac.jp/~yano/PDF/GI21_dist.pdfに書かれてますが、GAと強化学習を交互に実行していくって手法があるらしいです。 具体的にはGAで遺伝子(この場合は評価関数のパラメータベクトル)を複数生成し、それを元に強化学習でパラメ…

Bulldozer出荷開始

http://pc.watch.impress.co.jp/docs/news/20110907_475731.html サーバ向けのInterlagosですが、出荷開始された様です。従来のOpteron 6100シリーズとプラットフォーム互換性があり、1ソケットあたり16コアになります。 となるとデスクトップ向けのFXシリー…

上の案をもうちょっと具体的に考えてみた

学習の流れ 乱数で初期化した個体群*1を生成する 全個体対象として、スイス方式で対局の組み合わせを決定し、対局しながらパラメータ修正を行う。 2.の対局での勝率を遺伝子の適応度*2としてGAでパラメータ修正を行い、新たな個体群を生成する。 2.に戻る。 …

ちょっと思い付いた

今の自己対戦での強化学習は対局終了時に報酬を与えているけど、これを囲いが完成したら報酬を与えて、そこで対局打ち切るってのはどうだろうか。 もしこれでちゃんと囲える様なら、評価関数や探索じゃなくて、どっか別の要因で囲いの学習が出来ないって事に…

Haswellは2013年に登場?

http://pc.watch.impress.co.jp/docs/news/event/20110905_475273.html 薄型・軽量ノートPCのUltrabookの記事なんですが、サラっとCPUロードマップがのってて、そこには2013年にHaswellリリースと書かれています。 以前の情報だとIvy Bridgeの後にもう1世代B…

割引率γと勝率の関係

方策勾配法で約27万局自己対戦し学習したパラメータを、1手1秒でsspと対局させてみました。 勝率と95%信頼区間の下限・上限、それから勝ち星は下記の通り。 割引率 対ssp勝率 下限 上限 勝ち星 1 26.1 20.6 32.1 62-0-176 0.999 31.5 27.8 35.4 187-0-406 0…

今日までの分を反映

シグモイド関数無しでの方策勾配法 実装は完了。現在テスト中。 レポート収集系の整理 パラメータのセーブ・ロードまわりのテスト ※問題無し 方策勾配法の提案論文を探す&読む ※とりあえず発見。後で読む。 ソフトマックス方策の改善 ※現在実験中 http://ib…

ソフトマックス方策の改良論文

"ソフトマックス行動選択のパラメータ調整の手間を省くための新たな関数の導入"*1の論文を極秘ルート(嘘)で入手。読んでみました。 結論「そのままでは将棋に使えない」。 いやほら、状態数が少ない環境を前提にしてるらしくて、将棋だとメモリ容量も処理…

Intel MIC関連情報 @ 4Gamer

http://www.4gamer.net/games/049/G004963/20110831076/ データセンターとかEFLOPS*1級スパコンの話がメインですが、Many Integrated Coreの話があったんでご紹介。 次期MICであるKnights Cornerの開発は順調らしく、1000人位のエンジニアが関わって開発中ら…