2008-08-12から1日間の記事一覧
とりあえず多碗バンディット問題をεグリーディーで解くエージェントの、εを設定させてみました。 ちなみに腕は10本で各腕ごとに固定の閾値を設定、乱数が閾値以下なら報酬1.0、閾値より大きければ報酬0.0って条件です。 メタエージェントに与える報酬は、εグ…
まず練習問題として、多碗バンディット問題を連続値行動に拡張したものをでっち上げました。 これは、行動として一つの実数を選択すると、報酬として1.0または0.0を返す問題で、報酬は乱数が閾値以下なら1.0、閾値より大きければ0.0としました。 閾値はhttp:…