夜の一人遊び
えー、逆強化学習は上手く行かないので当面放置する事にしました。
で、合議方策勾配法のコードを引っ張り出してきてそっちをリトライ。
とりあえず、1クライアントの合議で強くなるかを試してます。
「合議になってない」ってツッコミはごもっともですが、アレですよアレ、マルチスレッド化したコードを1スレッドで走らせてデバッグするのと似た感じのパターンです。
今朝から学習開始して、約81万局経過後のパラメータをさっきから対sspのスパーリングに投入。
現時点で8-0-8となっていて、今の所は互角の模様。
前は勝率56.6だったんで、それに近い数字になれば嬉しいですね。
んでもって、1クライアント合議が成功したら今度は8クライアントにして学習させてみます。