GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

MTD(f)、微妙+UCB1

 リリースモード・アサーションありで一晩1000局弱。静止探索を2から4に深くした影響もあるんでしょうが、思ったほど速くなってないです。

 とりあえずαβとちゃんと比較しないと意味が無いんで、αβとMTD(f)を同条件で走らせてみます。

 んで、UCB1の実装。以前書いた「パラメータにボーナスを与えて探査を促進する」手法の為の下準備として。

 サクッと実装して、とりあえず多腕バンディット問題でεグリーディーと比較してみました。

 定常環境*1だとεグリーディーより収束速いし最終結果も優れてるんだけど、非定常環境*2だとどっちもどっち。

 自己対戦での強化学習将棋は非定常環境・・・だよなぁ。相手が学習すると局面の評価値や最善手が変わるし。

 とりあえず非定常環境への対応が出来ないと話にならないんで、まずはUCB1の論文を読んでみて、それでダメなら何か別のボーナス計算式を考えます。

*1:時間経過によって変化しない環境。単なる迷路とか。

*2:時間経過によって変化する環境。いきなり壁ができたり消えたりする迷路とか。