2018-11-06から1日間の記事一覧
gasyou.hatenablog.jp 上記エントリで参照している論文の件です。 まず、強化学習において探査*1を行う手法は、大別すると2種類になると思います。 乱数を用いて探査する:ε-Greedy方策、Softmax方策 etc. 状態や行動の試行回数に応じて探査する:UCB1、MBIE…
PGLeaf Drei Phase 2ですが、αβ探索と組み合わせてるんですが、探索深さによって収束したりしなかったりします。 具体的には 1手読み → 収束せず 2手読み → 8~9割程度の割合で正しく収束 3手読み → 収束せず 4手読み → 5~6割程度の割合で正しく収束 という…
え~、昨夜は5回の試行でちゃんと収束したですが、50回試行すると収束しないケースがチラホラ… やっぱり、少ない学習回数での結果は信用なりませんね。 この状態でPhase 3を実装しても収束するとは思えないんで、もうちょっと弄くり回してみます。