多数決合議用の、複数の評価関数パラメータセットの学習

　久々の更新ですが、ちょっとだけ進展有りました。

　まず、以前から何回かトライしていた「複数の評価関数を生成し、それらのリーグ戦の結果から強化学習する」という手法ですが、ようやく成功したみたいです。

　以前は学習結果の各パラメータの平均値をファイルに保存しておき、実戦ではその（平均をとった）パラメータにDropoutをかけて対局していました。

　ただ、せっかく学習時に複数のパラメータセットを生成したんですから、それをそのまま使った方が良いんじゃないかと考えました。

　んで、現在の実装では「複数のパラメータセットをそれぞれ個別のファイルに保存しておき、実戦では各評価関数はそれぞれ異なるファイルのパラメータセットを使用する」となっています。

　肝心の棋力ですが、同じタイミングで保存しておいた、平均化したパラメータと生のパラメータ8個を使った場合を比較してみました。5五将棋モードで対局相手はssp、思考時間はGA将0.1秒・ssp1秒です。

　結果、平均化した場合は627勝131敗で勝率82.7％。生のパラメータの場合は988勝149敗で勝率86.9％。ほぼ確実に強くなっています。レーティングは50程度向上した様子。

　パラメータの推移を見た感じだとまだ収束していない様ですので、引き続き学習させてどこまで伸びるか見てみます。

GA将？開発日記～王理のその先へ～