GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2012-03-31から1日間の記事一覧

合議方策勾配法のデバッグ結果

4x4リバーシで、合議クライアント数1、評価項目は最小限だとちゃんと収束しました。 ただ、評価項目を増やしたりクライアント数を増やすと収束しないんで、これに関しては要調査。 んで、今日はもう開発してる時間がないんで、とりあえず5五将棋で4クライア…

学習ルーチンにでっかいバグ見つけた!

てか、教わった式の通りに計算してなかった!!! _| ̄|○ でも、これでちゃんと学習出来る様になるかな!? かな? では、早速修正します (`・ω・´)

合議と方策勾配法を組み合わせたアルゴリズムをデバッグ中

一旦触るのをやめた合議方策勾配法*1をデバッグ中。 いきなり将棋だとテストに時間がかかりすぎるので、4x4のリバーシで実験中。 …んで、通常の方策勾配法でちゃんと収束するのを確認して、その設定のまま合議方策勾配法に学習エージェントを変えると、ちゃ…

探索深さと棋力向上の関係

学習時の全幅深さを0手〜2手の範囲で、学習時間と強さ向上の関係を調べてみました。対象のゲームは5五将棋で、自己対戦で学習した後のパラメータを使って、対sspの勝率で強さがどうなっているかを測っています。sspとの対局条件は、双方シングルスレッド・Po…

アピール文書提出完了

この前の下書きをベースにテキストファイルでチョチョっと書いただけのテキトーなやつですが、とりあえず提出。後でちゃんとしたのに差し替えます。 これで予選通過の権利だけは確保出来ましたね。 …あとは強くなってくれないと権利が無駄になるんですが、今…