メタ強化学習の修正 - GA将？開発日記～王理のその先へ～

正確に書くと、メタ強化学習エージェントがアクセスする環境の方で、状態の表現方法を修正しました。

今までは対局して得た報酬の加重平均*1を複数使って状態を表現していたのですが、加重平均1個＋探査率（非グリーディーな*2行動を選択した確率）の加重平均1個に変えてみました。

んで、30分ほど動かした感じだと…まだなんとも言えませんね。一晩走らせてみます。

*1:最近の報酬ほど大きい重みを与えて平均を計算する

*2:探索して得られた最善手とは異なる