2018-10-29 ベースラインは出来た 開発日記 メタ強化学習のベースラインとして、簡易的な迷路(ただしゴールは複数存在し、それぞれ得られる報酬が異なる)をQ学習で解くプログラムを作成。ざっくりテストして、無事局所最適解にハマる事を確認しました。 ざっとログを眺めた感じだと、迷路の領域の1割強しか探査出来ていないみたいなんで、メタ強化学習でこれをどう改善出来るか、楽しみです。 と言った所で本日はタイムアップ。残りは明日に持ち越しです。