ベースラインは出来た - GA将？開発日記～王理のその先へ～

　メタ強化学習のベースラインとして、簡易的な迷路（ただしゴールは複数存在し、それぞれ得られる報酬が異なる）をQ学習で解くプログラムを作成。ざっくりテストして、無事局所最適解にハマる事を確認しました。

　ざっとログを眺めた感じだと、迷路の領域の1割強しか探査出来ていないみたいなんで、メタ強化学習でこれをどう改善出来るか、楽しみです。

　と言った所で本日はタイムアップ。残りは明日に持ち越しです。