GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2012-03-01から1ヶ月間の記事一覧

合議方策勾配法のデバッグ結果

4x4リバーシで、合議クライアント数1、評価項目は最小限だとちゃんと収束しました。 ただ、評価項目を増やしたりクライアント数を増やすと収束しないんで、これに関しては要調査。 んで、今日はもう開発してる時間がないんで、とりあえず5五将棋で4クライア…

学習ルーチンにでっかいバグ見つけた!

てか、教わった式の通りに計算してなかった!!! _| ̄|○ でも、これでちゃんと学習出来る様になるかな!? かな? では、早速修正します (`・ω・´)

合議と方策勾配法を組み合わせたアルゴリズムをデバッグ中

一旦触るのをやめた合議方策勾配法*1をデバッグ中。 いきなり将棋だとテストに時間がかかりすぎるので、4x4のリバーシで実験中。 …んで、通常の方策勾配法でちゃんと収束するのを確認して、その設定のまま合議方策勾配法に学習エージェントを変えると、ちゃ…

探索深さと棋力向上の関係

学習時の全幅深さを0手〜2手の範囲で、学習時間と強さ向上の関係を調べてみました。対象のゲームは5五将棋で、自己対戦で学習した後のパラメータを使って、対sspの勝率で強さがどうなっているかを測っています。sspとの対局条件は、双方シングルスレッド・Po…

アピール文書提出完了

この前の下書きをベースにテキストファイルでチョチョっと書いただけのテキトーなやつですが、とりあえず提出。後でちゃんとしたのに差し替えます。 これで予選通過の権利だけは確保出来ましたね。 …あとは強くなってくれないと権利が無駄になるんですが、今…

迷走中

シングルクライアントでの方策勾配法をもうちょっと頑張ってみるか、合議+方策勾配法の方を先行してやるかで悩んでます。 どっちもそれぞれ問題が有りそうな感じなんで、どっから手を付けたもんかなぁ…

アピール文書下書き

今年度バージョンの概要 強化学習の一手法である方策勾配法を用いて評価関数パラメータの学習を行う。 評価項目は駒割・駒の位置評価+細々としたものいくつか。 探索は普通にαβ探索で全幅(LMRあり)+二段階静止探索。 詰将棋ルーチンも一応あります。 複…

3月のWindows Update適用後にVisual Studioでのデバッグに不都合があった話

多分ですけど、Windows Updateで何らかの変更があり、多分それが原因でデバッグ時に呼出履歴に関数名が表示されない*1状態になっていました。ついでに、VTuneも同じ状態。 んで、色々やった結果、3月のWindows Updateパッチをアンインストールすると、デバッ…

評価項目の自動生成

私の棋力が低いため、ヒューリスティックな項目では作れそうにありません・・。また、パターンを正しく認識できたら、ヒューリスティックな項目も多分に含まれるものと思っています。 http://d.hatena.ne.jp/SeleneShogi/20120314/p1 私も同じ理由でパターン…

うーん、おかしい?

合議無しのシングルエンジンでの方策勾配法を走らせてたんですが、駒割のグラフが収束していない気配があります。てか、このままどんどん発散しそうな勢い。 条件は方策勾配法・線形評価関数で、歩の価値を10に固定してあります。あと、収束を早める為に慣性…

あ、そうだ

そろそろアピール文書書かないと。

メモリリークなのか違うのか

33万局学習後にメモリ使用量を見てみると、3.2MB増加していました。 昨日のエラー出た状態からすると、GB単位でリークしてると予想してたんで、ちょっと意外。てか、これ位の量なら誤差の範囲内か? とりあえず、実用上は問題無さそうなんで放置する事にしま…

今後のPC向けメモリ技術について @ PC Watch

http://pc.watch.impress.co.jp/docs/news/event/20120309_517397.html 現行のDDR3からDDR4・DDR5と進んで、更にその先の展望まで書かれています。 モバイル用のWide I/O*1を応用したHBMというメモリも紹介されています。 将来的にはHBMみたいにCPUとメモリ…

合議+方策勾配法続き

どうもどっかでメモリリークしてるっぽくて、学習させてたのはメモリ不足エラーで落ちてました。 それと、合議サーバの方策πの中に合議クライアントの方策π'がある状態なんで、πの勾配が計算出来るはずです*1。 つー訳でまた微分と格闘してるんですが…ムズい…

合議+方策勾配法の修正

今までは合議サーバでの手選択は「最多得票数の手を選ぶ」という決定論的なものでした。 ただ、これだと上手く探査出来ない可能性があるので、合議サーバでもボルツマン分布を使って手選択する様に修正しました。 やり方は簡単で、合議の票数を基準値として…

Xeon E5シリーズ発表

解説記事:http://pc.watch.impress.co.jp/docs/column/kaigai/20120307_516811.html ラインナップ等:http://pc.watch.impress.co.jp/docs/news/20120307_516801.html 既報の通りSandy Bridge-EPコアで、1ソケットあたり8コア・16スレッド、最大2ソケット構…

デバッグ完了?

http://d.hatena.ne.jp/Gasyou/20120225/1330175123 で書いたバグの件。 http://d.hatena.ne.jp/Gasyou/20120229/1330512343 の「「4番目の合議クライアントが探索中」かつ「飛び利きが伸びる手*1」」って条件は間違ってました。正確には昨日書いた「5番目の…

今後のIntel CPUに採用される技術

http://pc.watch.impress.co.jp/docs/column/kaigai/20120306_516630.html 今後は省電力で電力効率に優れたCPUを目指すらしいというのが書かれています。 ただ、現在のPC向けCPUはTDPの枠が130〜150Wあたりで制限されていますので、電力効率が向上すればその…

原因判明したものの…

さっぱり理由が分かりません _| ̄|○ 一応異常な動作をしているコードは判明していて、5番目のクライアントが行動選択する時(正確に書くと、ボルツマン分布に従って選択確率を計算して保存する時)に、4番目のクライアントのハッシュ表の領域にデータを書き…

まだまだデバッグ中

例のバグですが、局面遷移前後の局面クラスの各種変数は正常でした(多分)。 んで、今度はハッシュ表の妥当性チェックをするコードを実装して、探索中にそれを使ってチェックしてみます。 …とか書いてたら、早速引っかかりました。よし、さっさと原因判明さ…