GA将?開発日記~王の理とは~

ネタ勢最強を目指して絶賛開発中。

多数決合議用の、複数の評価関数パラメータセットの学習

 久々の更新ですが、ちょっとだけ進展有りました。

 まず、以前から何回かトライしていた「複数の評価関数を生成し、それらのリーグ戦の結果から強化学習する」という手法ですが、ようやく成功したみたいです。

 以前は学習結果の各パラメータの平均値をファイルに保存しておき、実戦ではその(平均をとった)パラメータにDropoutをかけて対局していました。

 ただ、せっかく学習時に複数のパラメータセットを生成したんですから、それをそのまま使った方が良いんじゃないかと考えました。

 んで、現在の実装では「複数のパラメータセットをそれぞれ個別のファイルに保存しておき、実戦では各評価関数はそれぞれ異なるファイルのパラメータセットを使用する」となっています。

 肝心の棋力ですが、同じタイミングで保存しておいた、平均化したパラメータと生のパラメータ8個を使った場合を比較してみました。5五将棋モードで対局相手はssp、思考時間はGA将0.1秒・ssp1秒です。

 結果、平均化した場合は627勝131敗で勝率82.7%。生のパラメータの場合は988勝149敗で勝率86.9%。ほぼ確実に強くなっています。レーティングは50程度向上した様子。

 パラメータの推移を見た感じだとまだ収束していない様ですので、引き続き学習させてどこまで伸びるか見てみます。