夜の一人遊び - GA将？開発日記～王理のその先へ～

　えー、逆強化学習は上手く行かないので当面放置する事にしました。

　で、合議方策勾配法のコードを引っ張り出してきてそっちをリトライ。

　とりあえず、1クライアントの合議で強くなるかを試してます。

　「合議になってない」ってツッコミはごもっともですが、アレですよアレ、マルチスレッド化したコードを1スレッドで走らせてデバッグするのと似た感じのパターンです。

　今朝から学習開始して、約81万局経過後のパラメータをさっきから対sspのスパーリングに投入。

　現時点で8-0-8となっていて、今の所は互角の模様。

　前は勝率56.6だったんで、それに近い数字になれば嬉しいですね。

　んでもって、1クライアント合議が成功したら今度は8クライアントにして学習させてみます。