GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2011-01-01から1年間の記事一覧

年末大掃除

という事で、完了した項目はザックリ消して仕切り直し。 来年こそは学習を成功させたいなぁ… 方策勾配法での評価関数パラメータの学習 ※実装は完了。現在テスト中。 "変分ベイズ法による自然方策勾配の推定法"の調査 http://ci.nii.ac.jp/naid/110003496679 …

L1正則化を実装

パラメータの値が変に発散している対策にならないかと思い、L1正則化を実装しました。 とりあえず正則化係数の調整が必要なので、シングルスレッドバージョンを7通りの正則化係数で走らせています。正月明けまで走らせて、その後結果を見る予定。

次回選手権の参加者募集中らしいです

http://www.computer-shogi.org 私の所には参加経験者だからかCSA会員だからかでちょっと前にメールが来てましたが、CSAのサイトでも募集開始の告知がされていました。 ところで今回の選手権、私は惨敗する可能性が濃厚になってきました。いまだに3年前のパ…

VS Lesserkai

GA将!!!!!の方は評価項目全部ありで30万局ほど学習させ、それを4クライアントで合議したもの。対局条件は1手1秒。 んで、結果は149-2-24で勝率86.1%。95%信頼区間は80.1〜90.9。 …弱いですね。うーん…

おぉ、gps_lに勝ってる!

http://wdoor.c.u-tokyo.ac.jp/shogi/view/2011/12/29/wdoor+floodgate-900-0+Gasyou_Atom-D510_2c4t+gps_l+20111229080002.csa 何があったかよく分かりませんが、まさか勝っちゃうとは。 やっぱり、合議を実装するとやや攻撃的になるのが効いてたんでしょう…

方策勾配法での学習再開

パラメータ設定がおかしいって可能性があるんで、二点変更して学習させてみます。 ランダムオープニング*1を無効に 学習率を一桁下げて0.0001に 前者は効果が不明なので外しました。後者は、学習後のパラメータが変に大きくなってる感じなんで、それ対策で。…

選手権の参加申し込み完了

学習のメドは全然ですが、とりあえず申し込んでみました。 マシンも未定。強くなったらデスクトップPC持ち込むし、弱けりゃノートで逝く予定。 さーて、んじゃァどこから手を付けるかなぁ…

ベイズ線形回帰をざっと実装してみた

まずはy=axという関数のaを近似する問題で。 普通の線形回帰(近似)より、収束速いし収束後の挙動も安定してます。 ただ、aが時間経過と共に変化してく、非定常環境では線型近似に劣ります。どうも、aの変化に学習がついていけてない感じ。 まぁ、私の理解…

ベイズ統計の本、買いました

Excelでスッキリわかるベイズ統計入門作者: 涌井良幸,涌井貞美出版社/メーカー: 日本実業出版社発売日: 2010/11/11メディア: 単行本購入: 16人 クリック: 32回この商品を含むブログ (9件) を見る とりあえず評価関数のパラメータ修正に使えないかと検討中。 …

ソフトマックス方策に詰将棋ルーチン呼び出しを追加

今までは自己対戦時には詰将棋ルーチン使ってなかったんですが、ルートノードでのみ軽く0.05秒ほど呼んでみました。性能低いんで3手・5手詰め位は確実に読んで、7手・9手になると運が良ければ読めるって程度の性能です。 んで、対局速度は今の所24時間あたり…

昨夜からの学習速度

引き続き方策勾配法で頑張っています。 で、方策にはソフトマックスを使ってるんですが、それだと「暫定最善手の評価値がxで温度がTだから、評価値yの手の選択確率はz以下だ」と分かります。 そこで、xとTから適切なウィンドウを設定する事で、zが閾値以下に…

GPW2001の論文集が届きました

とりあえず興味の有る所から読んでますが「合議のための多様な将棋プレイヤの集団学習」が面白かったです。 基本的にはBaggingで、それに加えてModel-based NCL(Negative Correlation Learning)という手法で、評価関数のパラメータ調整時に各プレイヤー間…

バグっぽいなぁ・・・

20:22:21 @ lib::reporting::ReportCollector::printReport() > GpD : 24642 20:22:21 @ lib::reporting::ReportCollector::printReport() > 先手の勝率 : 0.5 20:22:21 @ lib::reporting::ReportCollector::printReport() > 引き分け率 : 0 20:22:21 @ lib:…

アイデム エンジニアキャリアHacks共有プロジェクトに応募してみる

お題:5年後の「エンジニアの働き方」は、どう変わっていてほしいですか? えーっと、ヒジョーに俗っぽい事から言うと 終電で帰らなくていい 納期間際に徹夜しなくていい 休日に会社からの電話に怯えなくていい いきなり「仕様変わったから、ヨロシク」とか…

誰もが納得しそうなcatコマンド

こんばんは森岡ですほとんど誰も見てないでしょうけど2週間近く日記を放置してましたスイマセン _| ̄|○ んで、本題↓ http://d.hatena.ne.jp/teramako/20111207/p1 私もはじめてcatコマンドの存在を知った時は「何でネコ?」って思ったもんですが、その思い…

直線探索を実装

以前書いたテストの様子を見てると、序盤の評価値の変化がほとんど無いのがおかしかったです。 んで、ちょっと思い付いて直線探索を実装。これで、学習率が0.001なら学習前後で誤差が0.1%だけ減少する様になりました。 それから、TD(λ)のλを0.7から0.99に修…

カーネル法評価関数、どっかおかしい

評価関数だけのテストを以下の手順でやってみました。 適当な棋譜一局分に従って、初手から終局までの局面を作る。 以下を繰り返す。 終局図で先手勝ちなら+1、後手勝ちなら-1を目標として、終局一手前の局面のパラメータを調整する。 それ以外の局面は、そ…

うーん、やっぱり厳しい

パラメータをそこそこ速度寄りに調整して一晩走らせたんですが、24時間あたりの対局数が200を切ってます。 評価関数の特性上、カーネル法評価関数内部のハッシュ表の有効なエントリ数(≒学習時に使用した局面の数)が増えるほど遅くなっていくので、学習が進…

厳しいなぁ

覚悟してた事ではありますが、カーネル法評価関数はかなり重いです。 どれくらい重いかと言うと、線形評価関数だと24時間あたりの対局数が数万だったんですが、探索等の条件はそのままでカーネル法評価関数に変えると、対局数が数十にまで減ります。 んで、…

結局、将棋用にTDLeaf(λ)+カーネル法評価関数を実装する事にしました

どのみち後で欲しくなる可能性高いですし、将棋で学習ルーチンを2つ*1使えた方がメリット大きいので。 んで、とりあえず新規に評価関数クラスを作ってポチポチと実装中。局面を元に低次元の特徴量を計算する部分がまだですが、それ以外は完成しました。 まぁ…

駒同士の連携の評価

カーネル法の本を読んでいると「カーネル法を使えば、通常のベクトルとグラフや木構造をシームレスに扱える」ってな感じの事が書いてあります。 で、それなら駒同士の連携(「何番の駒が何番に利いている」という情報)を有向グラフにして、それを評価項目に…

カーネル法評価関数+TD(λ)での実験結果

テーブル形式評価関数での実験結果はこちら。 http://d.hatena.ne.jp/Gasyou/20111112/1321093400 一つひどいバグがあって、関数の引数で「先手から見た評価値」か「後手から見た評価値」のどちらを計算するか指定するんですが、その指定を無視して常に先手…

Knights CornerはXeonとソケット互換

http://blog.livedoor.jp/amd646464/archives/52232391.html IntelのMICであるKnights Cornerですが、PCI Express接続の拡張カードではなく、Xeonと同じソケットを使用する事になるらしいです。 コア数は50で倍精度浮動小数点数演算性能が1TFLOPSらしいです…

Ivy Bridge-EP情報

http://a96sj096.cocolog-nifty.com/weblog/2011/11/xeon-e5sandy-br.html こちらはSandy Bridge-EP(Xeon E5)後継となるIvy Bridge-EPの情報が載ってます。 10コア・25MB L3キャッシュとなり、2013年初頭に登場との噂です。 私が買うかどうかは未定ですが…

Ivy Bridge-E情報

http://northwood.blog60.fc2.com/blog-entry-5445.html 現行のCore i3 3000シリーズ(Sandy Bridge-E)と同じLGA2011ソケットで、登場時期は2012年第4四半期らしいです。 となると、更に次世代のHaswellファミリのハイエンドデスクトップ向けが2013年早期に…

Tegra+CUDAなスパコンが登場へ

http://pc.watch.impress.co.jp/docs/news/20111115_491068.html 今までもTeslaやGeForceを使ったスパコンはありましたが、それらはCPUにx86系を使っていました。 ただ、それだと電力効率が悪いので、CPUにARM系のTegraを使ったスパコンを開発するそうです。…

Sandy Bridge-E発表&発売

http://pc.watch.impress.co.jp/docs/news/20111114_490804.html http://akiba-pc.watch.impress.co.jp/hotline/20111119/etc_intel.html 最上位のCore i7-3960Xでも8万5千円と比較的リーズナブルなお値段ですね。 私はコストパフォーマンス考えて3930K辺り…

リバーシでカーネル法評価関数を実装開始

の前に、元の評価関数でテスト。条件は下記の通り。 4x4リバーシ TD(λ) ソフトマックス方策 初期温度10.0 テーブル形式評価関数 学習率0.5 結果はこうなりました。 学習条件 結果 収束までの対局数 先後とも学習 ○(-8) 約1万3千局 先手のみ学習 ×(+10) 約2千…

王手千日手の原因

詰将棋ルーチンでグローバル詰みテーブル参照→千日手・王手千日手チェックの順番になってたのが悪いかと思い、ここの順番を逆にしました。 αβ探索では以前に順番入れ替えたんですが、その時に考慮漏れがあってこっちの順番は入れ替えてなかったみたいですね…

また王手千日手やっちゃってる

http://wdoor.c.u-tokyo.ac.jp/shogi/view/2011/11/11/wdoor+floodgate-900-0+sakurapyon-00+Gasyou_Atom-D510_2c4t+20111111200005.csa >>明日の俺 要検証