結局のところ - GA将？開発日記～王理のその先へ～

　強化学習でよく出てくる、探索と知識利用のトレードオフに上手く対応出来ていないのが、現状のGA将の問題点だと思います。

　という訳でここを何とかしたいんですが、対策としてはソフトマックス方策の温度調整を頑張るとか、ソフトマックスではない別の方策（か、ソフトマックスの改良版）を使うって辺りが主な候補になります。

　で、今考えているのは、モンテカルロ木探索で使われているUCTを自己対戦の初期局面に適用するやり方です。

　つまり、対局開始から数手はUCTで手を選択し、その後は今まで通りソフトマックス方策で選択します。

　このやり方だと、UCTの部分は学習対象外になりますが*1、その後はちゃんと学習出来るはずです。

　見方を変えると、「永遠に初期局面での最善手を探すモンテカルロ木探索プログラム」を作り、プレイアウト部分はαβ＋評価関数で手選択、かつ、一定プレイアウトごとに評価関数のパラメータを修正するって風になります。

　あと、UCT部分はUCB1-tunedじゃなくてDiscounted UCBを使おうかとも考えてるんですが、それに関しては後回し。とりあえすUCB1でやってみようかと考えています。

*1:UCTは確率的な方策ではないので、方策勾配法での学習は難しい