過去半年で最高の出来(当社比)になる!…かも
CNNを使ったActor-CriticとPGLeafのハイブリッド構成ですが、全然強くなる気配がありません。
…で、ですね。ちょっと思い付いたんですよ。従来のPGLeaf改の問題点。
今までは、全幅3手・静止探索10手とかで探索深さを固定して学習させてました。
ただ、これだと特定の探索深さに依存した結果になっちゃってるんじゃ無いかな、と。
で、今回のPGLeaf改・改の改良点。「自己対局時に、探索深さを全幅1手〜4手に毎回*1ランダムに変更する」。コレだけ。
したら、何か凄いペースでレベルアップしてるし、たった30万局しか学習してないのにssp(5五将棋モード)相手に勝率76%!!!
ちなみに過去最高は勝率80%ですが、その時は147万局学習させてました。
現時点では24時間あたり70万局ペースで自己対局が進んでいますので、2〜3日で収束するかもしれません。結果が楽しみです。
*1:1手進む毎に