2018-10-29から1日間の記事一覧
メタ強化学習のベースラインとして、簡易的な迷路(ただしゴールは複数存在し、それぞれ得られる報酬が異なる)をQ学習で解くプログラムを作成。ざっくりテストして、無事局所最適解にハマる事を確認しました。 ざっとログを眺めた感じだと、迷路の領域の1割…
私の使っているRSSリーダーでは、本ブログの個別記事へのリンクが取得出来ませんでした。同様の現象の方がお見えでしたら、お手数ですがRSSフィードの設定を https://gasyou.hatenablog.jp/rss にご変更下さい。 お手数をおかけして申し訳ありませんが、よろ…
前書いた論文の一個目のやつ、実装出来たけど素のPGLeaf*1より性能悪い… バグってんだろうなぁ。 という訳で、気分転換に二番目のメタ強化学習の方の実装に着手。 と言っても、コンピュータ将棋や三目並べではまだ動かせないので、簡単な迷路問題で実験して…