メタ強化学習に関して、理解出来た範囲で纏めてみる

開発日記

gasyou.hatenablog.jp 上記エントリで参照している論文の件です。まず、強化学習において探査*1を行う手法は、大別すると2種類になると思います。乱数を用いて探査する：ε-Greedy方策、Softmax方策 etc. 状態や行動の試行回数に応じて探査する：UCB1、MBIE…

困った事になってきた

開発日記

PGLeaf Drei Phase 2ですが、αβ探索と組み合わせてるんですが、探索深さによって収束したりしなかったりします。具体的には 1手読み → 収束せず 2手読み → 8～9割程度の割合で正しく収束 3手読み → 収束せず 4手読み → 5～6割程度の割合で正しく収束という…

開発日記

え～、昨夜は5回の試行でちゃんと収束したですが、50回試行すると収束しないケースがチラホラ… やっぱり、少ない学習回数での結果は信用なりませんね。この状態でPhase 3を実装しても収束するとは思えないんで、もうちょっと弄くり回してみます。