結局のところ
強化学習でよく出てくる、探索と知識利用のトレードオフに上手く対応出来ていないのが、現状のGA将の問題点だと思います。
という訳でここを何とかしたいんですが、対策としてはソフトマックス方策の温度調整を頑張るとか、ソフトマックスではない別の方策(か、ソフトマックスの改良版)を使うって辺りが主な候補になります。
で、今考えているのは、モンテカルロ木探索で使われているUCTを自己対戦の初期局面に適用するやり方です。
つまり、対局開始から数手はUCTで手を選択し、その後は今まで通りソフトマックス方策で選択します。
このやり方だと、UCTの部分は学習対象外になりますが*1、その後はちゃんと学習出来るはずです。
見方を変えると、「永遠に初期局面での最善手を探すモンテカルロ木探索プログラム」を作り、プレイアウト部分はαβ+評価関数で手選択、かつ、一定プレイアウトごとに評価関数のパラメータを修正するって風になります。
あと、UCT部分はUCB1-tunedじゃなくてDiscounted UCBを使おうかとも考えてるんですが、それに関しては後回し。とりあえすUCB1でやってみようかと考えています。
*1:UCTは確率的な方策ではないので、方策勾配法での学習は難しい