GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2013-02-01から1ヶ月間の記事一覧

Discounted UCB1-tuned+実装完了

https://www.lri.fr/~sebag/Slides/Venice/Kocsis.pdf スライドの式を「多分こんな感じだろう」って判断して適当に実装&適当に実験。 非定常な10本腕バンディット問題を解かせてみた感じだと、割引率0.999とか0.99だとUCB1より明らかに良い感じ。ただし、割…

今更UCB1の勉強してます

http://homes.di.unimi.it/~cesabian/Pubblicazioni/ml-02.pdf どうもDiscounted UCB1はUCB1に割引率(?)の項を付け加えた感じらしいんで、まずは基本のUCB1からやってみようかと。 とりあえずUCB1とDiscounted UCB1を今日中に実装して、多腕バンディット…

結局のところ

強化学習でよく出てくる、探索と知識利用のトレードオフに上手く対応出来ていないのが、現状のGA将の問題点だと思います。 という訳でここを何とかしたいんですが、対策としてはソフトマックス方策の温度調整を頑張るとか、ソフトマックスではない別の方策(…

バグ一個潰した

変数の初期化部分で、配列の添字を間違ってて対象外の変数を初期化していたのを修正。 で、さらにもう一晩テストしたいので、昨夜と同じく三目並べと5五将棋でテストラン中。

とりあえずPGLeaf完成

現在は三目並べと5五将棋の2種類をテスト用設定で走らせてます。 少なくとも三目並べはちゃんとした結果に収束して欲しいんですが、どうでしょうかねぇ。 とりあえず、明日の朝までに収束するのに期待して寝る事にします。

帰宅った

さー、今日中にPGLeafで学習する部分を完成させるぞ! …完成してもロクにテスト出来ずに (´・ω・`)ショボーン な展開になる方に40万ジンバブエドルかけます。

Deep Learningは諦めた

私の実装だと、主に学習速度の面で問題があるので、とりあえずお蔵入り。 んで、PGLeaf(方策勾配法+αβ探索)を実装し直す事に。 前の実装は、拡張に拡張を重ねて見通しが悪くなってたんで、思い切って書き直します。 今日中にはリバーシで動作確認する所ま…

CUDAの開発環境構築

動作環境 Core i7 940 & X58 RAM 24GB GeForce GT 640 Windows 7 Pro x64 構築手順 https://developer.nvidia.com/cuda-downloads?sid=229099 からcuda_5.0.35_winvista_win7_win8_general_64-3.msiをダウンロード。 後はインストーラを起動して、適当に進め…

グラボ

GPGPUで行くとしたら、若干経験のあるCUDAが使い勝手良さげなんで、それで書きたいです。 で、そうすると必然的にGPUはGeForceになるんですが、GTX 680が¥50,000弱、GTX 690だと¥100,000位ですね。 予算的にはGTX 690をSLI構成ってのも手が届きそうなんで…

困った

えーと、まずは学習の調子から。 テストとして学習用1局・検証用1局の棋譜を使用すると、検証用棋譜でのRMSEが0.13位までしか下がりませんでした(Deep Learningの第一層の値)。 んで、試しに棋譜を100局にすると、RMSEが0.05チョイに。まぁそれは良いんで…

色々機能追加

クロスバリデーション実装 ネットワークの形・深さを色々変えてみる 正則化の実装 とりあえず、正則化係数の良さげな値が決まったら、それをベースに学習走らせながら寝ます。

Deep Learningの基本的な部分を実装完了

まだやらないといけない事は色々あるんですが、とりあえず学習する部分は完成。 んで、現在100棋譜を教師として学習中なんですが…重いです。 層数は控えめに8層にしたんですが、それでも100局の学習に一晩掛かりそうな勢い。 …うーん、何とかして高速化した…

32インチの4K2Kディスプレイ

http://akiba-pc.watch.impress.co.jp/docs/news/news/20130219_588421.html 解像度3,840×2,160ドットで32インチ、お値段¥398,000だそうです。 ちょっと手が出せない金額ですが、後5年もすれば10万円前後まで落ちてきますかね。 私は今のディスプレイ(30イ…

うーん…

学習が遅いなぁ… この分だと、実用的な速度にするには何か工夫が必要か? とりあえず、ネットワークへの入力信号は疎なベクトルなので、それを考慮したデータ構造・アルゴリズムを考えれば良いのかな?

局面からの特徴量抽出は成功

…したはず。検証用棋譜での誤差は十分小さくなってるし。 で、これからやるべき事。 パラメータのセーブ・ロードルーチン実装。 Deep Learningの実装。 学習の高速化 どっからやろうかなぁ…

ニューラルネットワーク使用の評価関数を実装完了。

今ざっと学習テストしてますが、多分ちゃんと動いてます。 んで、これはあくまでテスト用なので、今から本命のDeepLearning評価関数を実装予定。 とりあえず、局面情報の圧縮(特徴量抽出)がちゃんと出来るかをテストしてみます。

↑で書いた続き

そう言えば、A1・A2は負けた側のプレイヤーの学習率を通常の半分にしていた結果でした。 つー訳で、今度はその時と同じ条件で学習させてみます。

二駒絶対位置関係の評価を追加したバージョン

No. 駒割 持ち駒の組み合わせ 筋・段個別の駒の絶対位置 駒の絶対位置 二駒相対位置関係 二駒絶対位置関係 三駒の相対位置関係 飛び利きを遮る駒 駒の自由度 王将の移動可能範囲 探索ルーチン 勝率 95%信頼区間 備考 A1 ○ ○ ○ ○ ○ - ○ - - - 200Kノードで打…

今後の方針

まずは二駒の絶対位置関係の評価を実装して、それで方策勾配法(PGLeaf)を使って学習させる。 んで、それと並行してバックアッププランとしてDeep Learningの評価関数を実装。こっちをTDLeaf(λ)で学習させる予定。 最終的に、強かった方を選手権に出すって…

WCSC23の参加者リスト来てた

シード組が2チームキャンセルすると、GA将!!!!!!が二次シードって… どう考えてもおかしいですよ。

二駒絶対評価のデバッグ中

if( exp ) return false; を if( exp ) false; と書いていてバグってた。で、そのデバッグに1時間近くかかってた。 死にたい _| ̄|○