2008-11-03 メタ強化学習の修正 開発日記 正確に書くと、メタ強化学習エージェントがアクセスする環境の方で、状態の表現方法を修正しました。 今までは対局して得た報酬の加重平均*1を複数使って状態を表現していたのですが、加重平均1個+探査率(非グリーディーな*2行動を選択した確率)の加重平均1個に変えてみました。 んで、30分ほど動かした感じだと…まだなんとも言えませんね。一晩走らせてみます。 *1:最近の報酬ほど大きい重みを与えて平均を計算する *2:探索して得られた最善手とは異なる