Optimizerの設定、間違ってた

開発日記学習経過

gasyou.hatenablog.jp 昨日はRMSPropと書きましたが、設定を見直したらRMSProp＋慣性項になっていました。 …まぁ、強くなってるから良いか。今の学習が頭打ちになったら、RMSPropのみに設定変更して、も一度学習しよう。ちなみに現在の棋力ですが、164万局…

2018-12-30

PGLeaf Dreiの現在の構成

開発日記学習経過

色々やって原型とどめ無くなってきたので、一旦整理。勾配計算に用いるのはPGLeaf＋モンテカルロ法 PGLeaf項はGPWの論文そのままモンテカルロ項は評価値をシグモイド関数に通して予測勝率に変換し、交差エントロピーを最小化する Softmax方策＋αβ探索＋線…

2018-12-30

そう言えばちゃんと書いてなかったけど、レベルアップ判定のお話

開発日記

現在のGA将は自己対局500回を1エポックとして、10エポックごとにレベルアップ判定をしています。レベルアップ判定は、現在の評価関数と「過去8代のエース評価関数」を相手に各50局、先後入れ替えて計400局実施し、勝率が55％超えたらレベルアップ、45％切っ…

2018-12-29

Noisy Networkを応用してみたら意外と良い感じになってきた

開発日記学習経過

その論文は読んでないですが概要だけ見ると https://t.co/xgorf3i1Gd https://t.co/JrAKUakySh でやってることと同じように思いました— mooopan (@mooopan) 2018年12月17日 Twitterで@mooopan氏に教えてもらった論文を参考にして、線形の評価関数にノイズを…

2018-12-18

なんとなく、私がやりたいのは最終的にベイズ方策勾配法に落ち着く様な気がしてきた

後で読む

http://papers.nips.cc/paper/2993-bayesian-policy-gradient-algorithms.pdf ただ、論文読んでも理論もアルゴリズムもサッパリ分からんｗ

2018-12-17

「確率的パラメータを持つ方策関数に対する方策勾配法」読んだまとめ

開発日記

ci.nii.ac.jp 概要オープンアクセス不可の論文なんで、気になった所だけ書こうと思います。通常の方策勾配法では、パラメータは「確定的な」ベクトルである。これを、ハイパーパラメータ*1から生成される「確率的な」ベクトルに拡張する。つまり、の値は…

2018-12-07

PGLeaf Drei全面的に書き直す事にした

開発日記

現状 Policy Gradient Methods for Reinforcement Learning with Function Approximation まず、上記論文の関数近似器の導入は断念しました。何をどういじっても、素のPGLeaf以上の性能にはならなかったので。やった事は大体こんな感じ。論文の手法をその…

2018-12-06

PGLeaf Drei Phase1完成していなかった

開発日記

え～、PGLeaf Dreiですが、三目並べモードではかなり良い感じだったんですが、5五将棋モードではてんでダメでした＿|￣|○ 学習開始時*1からのレーティング上昇量が4300とかになってウハウハだったんですが、sspと対局させると勝率が3割前後。という訳で、…

2018-11-28

PGLeaf Drei Phase1完成

現状素のPGLeafとの差分は以下の通りです。関数近似の導入（参考論文はこちら）エントロピー正則化の導入（参考論文はこちら）並列16連ガチャの導入まず、1.の導入により、エピソード終了時の収益を計算しなくても、方策勾配の計算が可能になりました。…

2018-11-27

PGLeaf Drei Phase1 with 並列16連ガチャ、ほぼ完成

開発日記

まず、先日書いたエントロピー正則化ですが、三目並べモード＋PGLeaf Dreiである程度ちゃんと動く様になりました。ただ、それでも乱数の偏りが原因（？）で、局所最適解にハマってしまう事もしばしば。ま、ソシャゲのガチャみたいな感じですね。んで、「ガ…

2018-11-26

キーボード逝ったーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーッ！！！

ThinkPadトラックポイントキーボードを愛用しているんですが、Ctrlキー*1が壊れましたｗまぁ、xkeymacsでCtrlキーを酷使する設定にしてるから、しゃーないか。 5年前の時点で4つあったストックが、現時点では残弾1。あと2年半か3年位で次のキーボード買わな…

2018-11-26

現時点で確認している問題点＠三目並べモード

開発日記

「初手の学習が上手く行かない」。これにつきます。対称形を考慮すると初手は三通りあるんですが、学習を進めていくとこの内どれか一手しかほとんど指さなくなります。で、これがどう困るかと言うと、先手に関しては対完全読みプレイヤーの引き分け率が1に…

2018-11-25

今日の予定

開発日記

MC Softmax 探索における局面評価関数の学習 GPW 2018で五十嵐先生に発表してもらった上記論文（五十嵐先生・山本一将さんとの共著論文）ですが、理論の提案だけで学習実験がまだです。という訳で、実験用にプログラムの修正作業をするのが一つ。それから…

2018-11-24

エントロピー正則化の勾配計算（修正済み）

開発日記メモ

policy gradientがexploration不足のまま決定的になりすぎてしまう場合、行動分布のentropyを最大化する項を正則化として加えるという方法がありますが、試してますでしょうか？— mooopan (@mooopan) 2018年11月24日 Twitterで@mooopanさんに教わった手法で…

2018-11-21

PGLeaf Drei Phase1までロールバック

開発日記

久方ぶりの更新ですノシ PGLeaf Dreiですが、一応数日前にPhase 3まで実装は出来ました。ただ、どうもどっかおかしい様で、三目並べモードでも正しく収束しないケースが有ります。という訳で、一旦Phase 1まで戻して、関数近似の部分を中心にテスト中。 …

2018-11-10

Strategic Exploration in Object-Oriented Reinforcement Learning

後で読む

http://jaywhang.com/assets/icml2018erl.pdf モデルベースでのプランニングを導入した探査手法？らしい。

2018-11-07

バグってないかもという結論に達した

PGLeaf Drei Phase 2ですが、探索深さによって収束したりしなかったりする現象、バグでは無さそうです（と言うか、発見出来なかった）。ログを見ての推測ですが、探索深さを2手以外にすると引き分けになる確率が極端に減り、それによって有効に学習する機会…

2018-11-06

メタ強化学習に関して、理解出来た範囲で纏めてみる

開発日記

gasyou.hatenablog.jp 上記エントリで参照している論文の件です。まず、強化学習において探査*1を行う手法は、大別すると2種類になると思います。乱数を用いて探査する：ε-Greedy方策、Softmax方策 etc. 状態や行動の試行回数に応じて探査する：UCB1、MBIE…

2018-11-06

困った事になってきた

開発日記

PGLeaf Drei Phase 2ですが、αβ探索と組み合わせてるんですが、探索深さによって収束したりしなかったりします。具体的には 1手読み → 収束せず 2手読み → 8～9割程度の割合で正しく収束 3手読み → 収束せず 4手読み → 5～6割程度の割合で正しく収束という…

2018-11-06

PGLeaf Drei Phase 2、もうちょっと頑張らないとだね

開発日記

え～、昨夜は5回の試行でちゃんと収束したですが、50回試行すると収束しないケースがチラホラ… やっぱり、少ない学習回数での結果は信用なりませんね。この状態でPhase 3を実装しても収束するとは思えないんで、もうちょっと弄くり回してみます。

2018-11-05

PGLeaf Drei Phase 2ほぼ完成か？

開発日記

現在開発中の学習ルーチンは「PGLeaf Drei」と呼んでいますが、Phase 2まで（多分）完成しました。まず、Phase 1でREINFORCEベースだったものから、関数近似を用いたActor-Critic化を行いました。で、Phase 2ではExperience Replayの導入をしたのですが、…

2018-11-02

UEC杯は参加無理かも

開発日記

gasyou.hatenablog.jpの続き。「招待プログラム以外は、開発者の一人は、現地に来て自身のプログラムを操作する必要があります。」とルールに有りましたので、私は現地参加しないといけないんですが、日程とか旅費とかの関係で厳しそう。年末ジャンボでポ…

2018-11-01

メタ強化学習ルーチン、割といい感じ

開発日記

Q学習では高々40状態程度の簡易迷路しか解けなかったのが、256状態まで増やしてもメタ強化学習有りだと解ける様になりました。結構期待出来そうなんで、スグにでも効果を見てみたいんですが、どうしようかなぁ。一つの手として、TDLeaf(λ)と組み合わせるっ…

2018-10-29

ベースラインは出来た

開発日記

メタ強化学習のベースラインとして、簡易的な迷路（ただしゴールは複数存在し、それぞれ得られる報酬が異なる）をQ学習で解くプログラムを作成。ざっくりテストして、無事局所最適解にハマる事を確認しました。ざっとログを眺めた感じだと、迷路の領域の1割…

2018-10-29

【重要】RSSリーダーに旧ブログ（d.hatena.ne.jp/Gasyou）を登録されていた方へのお願い

雑記

私の使っているRSSリーダーでは、本ブログの個別記事へのリンクが取得出来ませんでした。同様の現象の方がお見えでしたら、お手数ですがRSSフィードの設定を https://gasyou.hatenablog.jp/rss にご変更下さい。お手数をおかけして申し訳ありませんが、よろ…

2018-10-29

気分転換

開発日記

前書いた論文の一個目のやつ、実装出来たけど素のPGLeaf*1より性能悪い… バグってんだろうなぁ。という訳で、気分転換に二番目のメタ強化学習の方の実装に着手。と言っても、コンピュータ将棋や三目並べではまだ動かせないので、簡単な迷路問題で実験して…

2018-10-25

原点回帰して、PGLeaf（初代）の改良に取り組む事にしました

開発日記

https://papers.nips.cc/paper/1713-policy-gradient-methods-for-reinforcement-learning-with-function-approximation.pdf http://proceedings.mlr.press/v80/xu18d/xu18d.pdf TDLeaf(λ)とかと組み合わせるのは当面見送って、PGLeaf単体でどこまで行けるか…