2018-11-01から1ヶ月間の記事一覧
現状 素のPGLeafとの差分は以下の通りです。 関数近似の導入(参考論文はこちら) エントロピー正則化の導入(参考論文はこちら) 並列16連ガチャの導入 まず、1.の導入により、エピソード終了時の収益を計算しなくても、方策勾配の計算が可能になりました。…
まず、先日書いたエントロピー正則化ですが、三目並べモード+PGLeaf Dreiである程度ちゃんと動く様になりました。 ただ、それでも乱数の偏りが原因(?)で、局所最適解にハマってしまう事もしばしば。ま、ソシャゲのガチャみたいな感じですね。 んで、「ガ…
ThinkPadトラックポイントキーボードを愛用しているんですが、Ctrlキー*1が壊れましたw まぁ、xkeymacsでCtrlキーを酷使する設定にしてるから、しゃーないか。 5年前の時点で4つあったストックが、現時点では残弾1。あと2年半か3年位で次のキーボード買わな…
「初手の学習が上手く行かない」。これにつきます。 対称形を考慮すると初手は三通りあるんですが、学習を進めていくとこの内どれか一手しかほとんど指さなくなります。 で、これがどう困るかと言うと、先手に関しては対完全読みプレイヤーの引き分け率が1に…
MC Softmax 探索における局面評価関数の学習 GPW 2018で五十嵐先生に発表してもらった上記論文(五十嵐先生・山本一将さんとの共著論文)ですが、理論の提案だけで学習実験がまだです。 という訳で、実験用にプログラムの修正作業をするのが一つ。 それから…
policy gradientがexploration不足のまま決定的になりすぎてしまう場合、行動分布のentropyを最大化する項を正則化として加えるという方法がありますが、試してますでしょうか?— mooopan (@mooopan) 2018年11月24日 Twitterで@mooopanさんに教わった手法で…
久方ぶりの更新です ノシ PGLeaf Dreiですが、一応数日前にPhase 3まで実装は出来ました。 ただ、どうもどっかおかしい様で、三目並べモードでも正しく収束しないケースが有ります。 という訳で、一旦Phase 1まで戻して、関数近似の部分を中心にテスト中。 …
http://jaywhang.com/assets/icml2018erl.pdf モデルベースでのプランニングを導入した探査手法?らしい。
PGLeaf Drei Phase 2ですが、探索深さによって収束したりしなかったりする現象、バグでは無さそうです(と言うか、発見出来なかった)。 ログを見ての推測ですが、探索深さを2手以外にすると引き分けになる確率が極端に減り、それによって有効に学習する機会…
gasyou.hatenablog.jp 上記エントリで参照している論文の件です。 まず、強化学習において探査*1を行う手法は、大別すると2種類になると思います。 乱数を用いて探査する:ε-Greedy方策、Softmax方策 etc. 状態や行動の試行回数に応じて探査する:UCB1、MBIE…
PGLeaf Drei Phase 2ですが、αβ探索と組み合わせてるんですが、探索深さによって収束したりしなかったりします。 具体的には 1手読み → 収束せず 2手読み → 8~9割程度の割合で正しく収束 3手読み → 収束せず 4手読み → 5~6割程度の割合で正しく収束 という…
え~、昨夜は5回の試行でちゃんと収束したですが、50回試行すると収束しないケースがチラホラ… やっぱり、少ない学習回数での結果は信用なりませんね。 この状態でPhase 3を実装しても収束するとは思えないんで、もうちょっと弄くり回してみます。
現在開発中の学習ルーチンは「PGLeaf Drei」と呼んでいますが、Phase 2まで(多分)完成しました。 まず、Phase 1でREINFORCEベースだったものから、関数近似を用いたActor-Critic化を行いました。 で、Phase 2ではExperience Replayの導入をしたのですが、…
gasyou.hatenablog.jpの続き。 「招待プログラム以外は、開発者の一人は、現地に来て自身のプログラムを操作する必要があります。」とルールに有りましたので、私は現地参加しないといけないんですが、日程とか旅費とかの関係で厳しそう。 年末ジャンボでポ…
Q学習では高々40状態程度の簡易迷路しか解けなかったのが、256状態まで増やしてもメタ強化学習有りだと解ける様になりました。 結構期待出来そうなんで、スグにでも効果を見てみたいんですが、どうしようかなぁ。 一つの手として、TDLeaf(λ)と組み合わせるっ…