2012-03-31から1日間の記事一覧
4x4リバーシで、合議クライアント数1、評価項目は最小限だとちゃんと収束しました。 ただ、評価項目を増やしたりクライアント数を増やすと収束しないんで、これに関しては要調査。 んで、今日はもう開発してる時間がないんで、とりあえず5五将棋で4クライア…
てか、教わった式の通りに計算してなかった!!! _| ̄|○ でも、これでちゃんと学習出来る様になるかな!? かな? では、早速修正します (`・ω・´)
一旦触るのをやめた合議方策勾配法*1をデバッグ中。 いきなり将棋だとテストに時間がかかりすぎるので、4x4のリバーシで実験中。 …んで、通常の方策勾配法でちゃんと収束するのを確認して、その設定のまま合議方策勾配法に学習エージェントを変えると、ちゃ…
学習時の全幅深さを0手〜2手の範囲で、学習時間と強さ向上の関係を調べてみました。対象のゲームは5五将棋で、自己対戦で学習した後のパラメータを使って、対sspの勝率で強さがどうなっているかを測っています。sspとの対局条件は、双方シングルスレッド・Po…
この前の下書きをベースにテキストファイルでチョチョっと書いただけのテキトーなやつですが、とりあえず提出。後でちゃんとしたのに差し替えます。 これで予選通過の権利だけは確保出来ましたね。 …あとは強くなってくれないと権利が無駄になるんですが、今…