GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

やっぱり収束した

開発日記

　昨日の続きですが、目標探索率を0.05にしてたら収束してない様に見えましたが、0.0にしたら4千局ほどで収束しました。

　その他の条件は下記の通り。

方策オフTDLeaf(λ)。
ソフトマックス方策。
テーブル形式の評価関数。初期値は-1.0〜1.0の範囲の一様乱数。学習率0.1。

　目標探索率0.05だとどういう現象が起きてるか気になるので、情報表示系を実装してログを見てみる事にします。