合議方策勾配法のデバッグ結果

開発日記

4x4リバーシで、合議クライアント数1、評価項目は最小限だとちゃんと収束しました。ただ、評価項目を増やしたりクライアント数を増やすと収束しないんで、これに関しては要調査。んで、今日はもう開発してる時間がないんで、とりあえず5五将棋で4クライア…

2012-03-31

学習ルーチンにでっかいバグ見つけた！

開発日記

てか、教わった式の通りに計算してなかった！！！＿|￣|○ でも、これでちゃんと学習出来る様になるかな！？かな？では、早速修正します (｀・ω・´)

2012-03-31

合議と方策勾配法を組み合わせたアルゴリズムをデバッグ中

開発日記

一旦触るのをやめた合議方策勾配法*1をデバッグ中。いきなり将棋だとテストに時間がかかりすぎるので、4x4のリバーシで実験中。 …んで、通常の方策勾配法でちゃんと収束するのを確認して、その設定のまま合議方策勾配法に学習エージェントを変えると、ちゃ…

2012-03-31

探索深さと棋力向上の関係

開発日記

学習時の全幅深さを0手〜2手の範囲で、学習時間と強さ向上の関係を調べてみました。対象のゲームは5五将棋で、自己対戦で学習した後のパラメータを使って、対sspの勝率で強さがどうなっているかを測っています。sspとの対局条件は、双方シングルスレッド・Po…

2012-03-31

アピール文書提出完了

コンピュータ将棋

この前の下書きをベースにテキストファイルでチョチョっと書いただけのテキトーなやつですが、とりあえず提出。後でちゃんとしたのに差し替えます。これで予選通過の権利だけは確保出来ましたね。 …あとは強くなってくれないと権利が無駄になるんですが、今…

2012-03-18

迷走中

開発日記

シングルクライアントでの方策勾配法をもうちょっと頑張ってみるか、合議＋方策勾配法の方を先行してやるかで悩んでます。どっちもそれぞれ問題が有りそうな感じなんで、どっから手を付けたもんかなぁ…

2012-03-18

アピール文書下書き

コンピュータ将棋

今年度バージョンの概要強化学習の一手法である方策勾配法を用いて評価関数パラメータの学習を行う。評価項目は駒割・駒の位置評価＋細々としたものいくつか。探索は普通にαβ探索で全幅（LMRあり）＋二段階静止探索。詰将棋ルーチンも一応あります。複…

2012-03-18

3月のWindows Update適用後にVisual Studioでのデバッグに不都合があった話

開発日記

多分ですけど、Windows Updateで何らかの変更があり、多分それが原因でデバッグ時に呼出履歴に関数名が表示されない*1状態になっていました。ついでに、VTuneも同じ状態。んで、色々やった結果、3月のWindows Updateパッチをアンインストールすると、デバッ…

2012-03-14

評価項目の自動生成

コンピュータ将棋

私の棋力が低いため、ヒューリスティックな項目では作れそうにありません・・。また、パターンを正しく認識できたら、ヒューリスティックな項目も多分に含まれるものと思っています。 http://d.hatena.ne.jp/SeleneShogi/20120314/p1 私も同じ理由でパターン…

2012-03-14

うーん、おかしい？

開発日記

合議無しのシングルエンジンでの方策勾配法を走らせてたんですが、駒割のグラフが収束していない気配があります。てか、このままどんどん発散しそうな勢い。条件は方策勾配法・線形評価関数で、歩の価値を10に固定してあります。あと、収束を早める為に慣性…

2012-03-14

あ、そうだ

コンピュータ将棋

そろそろアピール文書書かないと。

2012-03-09

メモリリークなのか違うのか

開発日記

33万局学習後にメモリ使用量を見てみると、3.2MB増加していました。昨日のエラー出た状態からすると、GB単位でリークしてると予想してたんで、ちょっと意外。てか、これ位の量なら誤差の範囲内か？とりあえず、実用上は問題無さそうなんで放置する事にしま…

2012-03-09

今後のPC向けメモリ技術について＠ PC Watch

コンピュータ関連

http://pc.watch.impress.co.jp/docs/news/event/20120309_517397.html 現行のDDR3からDDR4・DDR5と進んで、更にその先の展望まで書かれています。モバイル用のWide I/O*1を応用したHBMというメモリも紹介されています。将来的にはHBMみたいにCPUとメモリ…

2012-03-08

合議＋方策勾配法続き

開発日記

どうもどっかでメモリリークしてるっぽくて、学習させてたのはメモリ不足エラーで落ちてました。それと、合議サーバの方策πの中に合議クライアントの方策π'がある状態なんで、πの勾配が計算出来るはずです*1。つー訳でまた微分と格闘してるんですが…ムズい…

2012-03-07

合議＋方策勾配法の修正

開発日記

今までは合議サーバでの手選択は「最多得票数の手を選ぶ」という決定論的なものでした。ただ、これだと上手く探査出来ない可能性があるので、合議サーバでもボルツマン分布を使って手選択する様に修正しました。やり方は簡単で、合議の票数を基準値として…

2012-03-07

Xeon E5シリーズ発表

コンピュータ関連

解説記事：http://pc.watch.impress.co.jp/docs/column/kaigai/20120307_516811.html ラインナップ等：http://pc.watch.impress.co.jp/docs/news/20120307_516801.html 既報の通りSandy Bridge-EPコアで、1ソケットあたり8コア・16スレッド、最大2ソケット構…

2012-03-05

デバッグ完了？

開発日記

http://d.hatena.ne.jp/Gasyou/20120225/1330175123 で書いたバグの件。 http://d.hatena.ne.jp/Gasyou/20120229/1330512343 の「「4番目の合議クライアントが探索中」かつ「飛び利きが伸びる手*1」」って条件は間違ってました。正確には昨日書いた「5番目の…

2012-03-05

今後のIntel CPUに採用される技術

コンピュータ関連

http://pc.watch.impress.co.jp/docs/column/kaigai/20120306_516630.html 今後は省電力で電力効率に優れたCPUを目指すらしいというのが書かれています。ただ、現在のPC向けCPUはTDPの枠が130〜150Wあたりで制限されていますので、電力効率が向上すればその…