GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

結局のところ

 強化学習でよく出てくる、探索と知識利用のトレードオフに上手く対応出来ていないのが、現状のGA将の問題点だと思います。

 という訳でここを何とかしたいんですが、対策としてはソフトマックス方策の温度調整を頑張るとか、ソフトマックスではない別の方策(か、ソフトマックスの改良版)を使うって辺りが主な候補になります。

 で、今考えているのは、モンテカルロ木探索で使われているUCTを自己対戦の初期局面に適用するやり方です。

 つまり、対局開始から数手はUCTで手を選択し、その後は今まで通りソフトマックス方策で選択します。

 このやり方だと、UCTの部分は学習対象外になりますが*1、その後はちゃんと学習出来るはずです。

 見方を変えると、「永遠に初期局面での最善手を探すモンテカルロ木探索プログラム」を作り、プレイアウト部分はαβ+評価関数で手選択、かつ、一定プレイアウトごとに評価関数のパラメータを修正するって風になります。

 あと、UCT部分はUCB1-tunedじゃなくてDiscounted UCBを使おうかとも考えてるんですが、それに関しては後回し。とりあえすUCB1でやってみようかと考えています。

*1:UCTは確率的な方策ではないので、方策勾配法での学習は難しい