UEC杯は参加無理かも

開発日記

gasyou.hatenablog.jpの続き。「招待プログラム以外は、開発者の一人は、現地に来て自身のプログラムを操作する必要があります。」とルールに有りましたので、私は現地参加しないといけないんですが、日程とか旅費とかの関係で厳しそう。年末ジャンボでポ…

2018-11-01

メタ強化学習ルーチン、割といい感じ

開発日記

Q学習では高々40状態程度の簡易迷路しか解けなかったのが、256状態まで増やしてもメタ強化学習有りだと解ける様になりました。結構期待出来そうなんで、スグにでも効果を見てみたいんですが、どうしようかなぁ。一つの手として、TDLeaf(λ)と組み合わせるっ…

2018-10-29

ベースラインは出来た

開発日記

メタ強化学習のベースラインとして、簡易的な迷路（ただしゴールは複数存在し、それぞれ得られる報酬が異なる）をQ学習で解くプログラムを作成。ざっくりテストして、無事局所最適解にハマる事を確認しました。ざっとログを眺めた感じだと、迷路の領域の1割…

2018-10-29

【重要】RSSリーダーに旧ブログ（d.hatena.ne.jp/Gasyou）を登録されていた方へのお願い

雑記

私の使っているRSSリーダーでは、本ブログの個別記事へのリンクが取得出来ませんでした。同様の現象の方がお見えでしたら、お手数ですがRSSフィードの設定を https://gasyou.hatenablog.jp/rss にご変更下さい。お手数をおかけして申し訳ありませんが、よろ…

2018-10-29

気分転換

開発日記

前書いた論文の一個目のやつ、実装出来たけど素のPGLeaf*1より性能悪い… バグってんだろうなぁ。という訳で、気分転換に二番目のメタ強化学習の方の実装に着手。と言っても、コンピュータ将棋や三目並べではまだ動かせないので、簡単な迷路問題で実験して…

2018-10-25

原点回帰して、PGLeaf（初代）の改良に取り組む事にしました

開発日記

https://papers.nips.cc/paper/1713-policy-gradient-methods-for-reinforcement-learning-with-function-approximation.pdf http://proceedings.mlr.press/v80/xu18d/xu18d.pdf TDLeaf(λ)とかと組み合わせるのは当面見送って、PGLeaf単体でどこまで行けるか…

2018-10-24

第１１回UEC杯５五将棋大会 in GAT

コンピュータ将棋開発日記

第11回UEC杯 in GAT５五将棋大会 - 5五将棋 portal 2019年3月9日～10日。現地参加したいけど、旅費とかいろいろ工面出来るかなぁ…

2018-10-10

GPW杯コンピュータ5五将棋大会2018

コンピュータ将棋開発日記

GPW杯コンピュータ５五将棋大会2018 - 5五将棋 portal 開催されるそうです。どうしようかなぁ～。現地での参加は無理そうだから、参加するなら代理操作を誰かに頼まないと…

2018-08-28

来年の選手権について【GA将、一時中断するかも】

コンピュータ将棋開発日記

http://dwango.co.jp/pi/ns/2018/0827/index.html 昨日のニュースですが、電王トーナメントは終了して来年の選手権にドワンゴから賞金が出る様になるらしいですね。という訳で、「ライブラリを使えばこんなに簡単＆手抜きで賞金ゲットだぜ！」という問題提…

2018-08-21

プランA、いい感じに仕上がってきたかも

開発日記

三目並べモードで方策勾配法＋Q(λ)＋Bootstrappingで正しく収束する様になりました。という訳で、5五将棋モードに変更して学習用マシンに投入。 …と言うか、今朝から走らせてたんだけど、パラメータ更新後の後処理*1を忘れてて、さっき慌てて実装したのはこ…

2018-08-12

勾配計算の並列化でバグってた＆なんとか治った話

開発日記

https://teratail.com/questions/129845 OpenMPのomp_get_thread_num()関数とネストしての並列化絡みの仕様をちゃんと理解していなくて、正に上記URLの現象でバグってました。デバッグにかれこれ6時間はかかったんじゃないかなぁ… まぁ、とりあえず動く様に…

2018-08-10

バグってなかったという結論に達した

開発日記

先日書いたバグ疑惑ですが、結局色々調べた所「探査が足りてなくて正しく収束しない」という現象だと判断しました。という訳で、5五将棋モードに設定変更して学習中。 …クソ重てぇｗ一晩かかって３００局しか対局出来ません。どうも、勾配の再帰計算＆初…

2018-08-08

プランAの進捗状況

開発日記

プランAですが、本命は「モンテカルロサンプリングを用いて行動価値関数の勾配を求める」方式なんですが、とりあえず妥協して厳密に勾配を求める方式に変更。んで、Bootstrap部分は手を加えてないので正常動作。Q(λ)はまだバグ持ち… 現在は三目並べモードで…

2018-07-11

昨日の論文、アイデアは応用出来るかも

開発日記

http://d.hatena.ne.jp/Gasyou/20180710/1531215640 要するに「獲得した報酬が増えた→良いメタパラメータだった」「獲得した報酬が減った→悪いメタパラメータだった」って判断する訳ですから、Exploration Policyではなく通常のメタパラメータ*1の学習にも使…

2018-07-10

Learning to Explore via Meta-Policy Gradient

後で読む

Learning to Explore via Meta-Policy Gradient ざっと読んだ感じだと Off-Policy学習*1と組み合わせるのが前提のメタ学習アルゴリズム。 Exploration Policyと呼ぶ方策を導入し、これを方策勾配法で学習する。通常の*2方策のパラメータ更新前後の予測報酬…