GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2008-08-12から1日間の記事一覧

調子に乗ってGA + UCB1-TUNEDでメタ強化学習開始

とりあえず多碗バンディット問題をεグリーディーで解くエージェントの、εを設定させてみました。 ちなみに腕は10本で各腕ごとに固定の閾値を設定、乱数が閾値以下なら報酬1.0、閾値より大きければ報酬0.0って条件です。 メタエージェントに与える報酬は、εグ…

とりあえずGA + UCB1-TUNED実装完了

まず練習問題として、多碗バンディット問題を連続値行動に拡張したものをでっち上げました。 これは、行動として一つの実数を選択すると、報酬として1.0または0.0を返す問題で、報酬は乱数が閾値以下なら1.0、閾値より大きければ0.0としました。 閾値はhttp:…