GA将?開発日記~原点回帰~

ネタ勢最強を目指して絶賛開発中。

ベースラインは出来た

 メタ強化学習のベースラインとして、簡易的な迷路(ただしゴールは複数存在し、それぞれ得られる報酬が異なる)をQ学習で解くプログラムを作成。ざっくりテストして、無事局所最適解にハマる事を確認しました。

 ざっとログを眺めた感じだと、迷路の領域の1割強しか探査出来ていないみたいなんで、メタ強化学習でこれをどう改善出来るか、楽しみです。

 と言った所で本日はタイムアップ。残りは明日に持ち越しです。