2018-10-01から1ヶ月間の記事一覧
メタ強化学習のベースラインとして、簡易的な迷路(ただしゴールは複数存在し、それぞれ得られる報酬が異なる)をQ学習で解くプログラムを作成。ざっくりテストして、無事局所最適解にハマる事を確認しました。 ざっとログを眺めた感じだと、迷路の領域の1割…
私の使っているRSSリーダーでは、本ブログの個別記事へのリンクが取得出来ませんでした。同様の現象の方がお見えでしたら、お手数ですがRSSフィードの設定を https://gasyou.hatenablog.jp/rss にご変更下さい。 お手数をおかけして申し訳ありませんが、よろ…
前書いた論文の一個目のやつ、実装出来たけど素のPGLeaf*1より性能悪い… バグってんだろうなぁ。 という訳で、気分転換に二番目のメタ強化学習の方の実装に着手。 と言っても、コンピュータ将棋や三目並べではまだ動かせないので、簡単な迷路問題で実験して…
https://papers.nips.cc/paper/1713-policy-gradient-methods-for-reinforcement-learning-with-function-approximation.pdf http://proceedings.mlr.press/v80/xu18d/xu18d.pdf TDLeaf(λ)とかと組み合わせるのは当面見送って、PGLeaf単体でどこまで行けるか…
第11回UEC杯 in GAT5五将棋大会 - 5五将棋 portal 2019年3月9日~10日。現地参加したいけど、旅費とかいろいろ工面出来るかなぁ…
GPW杯コンピュータ5五将棋大会2018 - 5五将棋 portal 開催されるそうです。どうしようかなぁ~。 現地での参加は無理そうだから、参加するなら代理操作を誰かに頼まないと…