GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

やっぱり収束した

 昨日の続きですが、目標探索率を0.05にしてたら収束してない様に見えましたが、0.0にしたら4千局ほどで収束しました。

 その他の条件は下記の通り。

  • 方策オフTDLeaf(λ)。
  • ソフトマックス方策。
  • テーブル形式の評価関数。初期値は-1.0〜1.0の範囲の一様乱数。学習率0.1。

 目標探索率0.05だとどういう現象が起きてるか気になるので、情報表示系を実装してログを見てみる事にします。