GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

夜の一人遊び

 えー、逆強化学習は上手く行かないので当面放置する事にしました。

 で、合議方策勾配法のコードを引っ張り出してきてそっちをリトライ。

 とりあえず、1クライアントの合議で強くなるかを試してます。

 「合議になってない」ってツッコミはごもっともですが、アレですよアレ、マルチスレッド化したコードを1スレッドで走らせてデバッグするのと似た感じのパターンです。

 今朝から学習開始して、約81万局経過後のパラメータをさっきから対sspのスパーリングに投入。

 現時点で8-0-8となっていて、今の所は互角の模様。

 前は勝率56.6だったんで、それに近い数字になれば嬉しいですね。

 んでもって、1クライアント合議が成功したら今度は8クライアントにして学習させてみます。