GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

メタ強化学習の修正

正確に書くと、メタ強化学習エージェントがアクセスする環境の方で、状態の表現方法を修正しました。

今までは対局して得た報酬の加重平均*1を複数使って状態を表現していたのですが、加重平均1個+探査率(非グリーディーな*2行動を選択した確率)の加重平均1個に変えてみました。

んで、30分ほど動かした感じだと…まだなんとも言えませんね。一晩走らせてみます。

*1:最近の報酬ほど大きい重みを与えて平均を計算する

*2:探索して得られた最善手とは異なる