GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

進行度を利用した評価関数のパラメータ学習に関する、新しいアイデア

 芝浦将棋Jr.の五十嵐先生と相談中で、ひょっとしたら論文ネタになるかもしれないので、ザクっと書いてみます。

 まず、自己対戦の結果から強化学習(TDLeaf(λ)やPGLeaf)で学習する際に一番問題になるのは、序盤〜中盤の学習が上手く行かない事です。

 これは、私の予想では、序盤の指し手選択から終局して報酬が貰えるまでの時間が長いので、序盤の手の良し悪しを上手く学習出来ないのが原因です。

 そこで、序盤用パラメータの学習ステージと終盤用パラメータの学習ステージを分離して、それぞれ別個に学習すれば上手く行かないかと言うのが、今回の主旨です。

 終盤用パラメータは勝敗に応じた報酬でそこそこ上手く行くので、そっちは特に変更しません。で、序盤用パラメータは中盤の適当なタイミングでの評価値を元に報酬を計算し、それを元に学習させようかと思います。

 希望的観測では、新戦法(と言う程高度なものになるかは不明ですが)を編み出してくれないかなぁ、と考えています。

 実装自体は割と簡単な筈なので、まずは合議無しのPGLeafに組み込んでみます。