2011-05-02 やっぱり収束した 開発日記 昨日の続きですが、目標探索率を0.05にしてたら収束してない様に見えましたが、0.0にしたら4千局ほどで収束しました。 その他の条件は下記の通り。 方策オフTDLeaf(λ)。 ソフトマックス方策。 テーブル形式の評価関数。初期値は-1.0〜1.0の範囲の一様乱数。学習率0.1。 目標探索率0.05だとどういう現象が起きてるか気になるので、情報表示系を実装してログを見てみる事にします。