合議方策勾配法のデバッグ結果

開発日記

4x4リバーシで、合議クライアント数1、評価項目は最小限だとちゃんと収束しました。ただ、評価項目を増やしたりクライアント数を増やすと収束しないんで、これに関しては要調査。んで、今日はもう開発してる時間がないんで、とりあえず5五将棋で4クライア…

学習ルーチンにでっかいバグ見つけた！

開発日記

てか、教わった式の通りに計算してなかった！！！＿|￣|○ でも、これでちゃんと学習出来る様になるかな！？かな？では、早速修正します (｀・ω・´)

開発日記

一旦触るのをやめた合議方策勾配法*1をデバッグ中。いきなり将棋だとテストに時間がかかりすぎるので、4x4のリバーシで実験中。 …んで、通常の方策勾配法でちゃんと収束するのを確認して、その設定のまま合議方策勾配法に学習エージェントを変えると、ちゃ…

開発日記

学習時の全幅深さを0手〜2手の範囲で、学習時間と強さ向上の関係を調べてみました。対象のゲームは5五将棋で、自己対戦で学習した後のパラメータを使って、対sspの勝率で強さがどうなっているかを測っています。sspとの対局条件は、双方シングルスレッド・Po…

この前の下書きをベースにテキストファイルでチョチョっと書いただけのテキトーなやつですが、とりあえず提出。後でちゃんとしたのに差し替えます。これで予選通過の権利だけは確保出来ましたね。 …あとは強くなってくれないと権利が無駄になるんですが、今…