GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2018-11-06から1日間の記事一覧

メタ強化学習に関して、理解出来た範囲で纏めてみる

gasyou.hatenablog.jp 上記エントリで参照している論文の件です。 まず、強化学習において探査*1を行う手法は、大別すると2種類になると思います。 乱数を用いて探査する:ε-Greedy方策、Softmax方策 etc. 状態や行動の試行回数に応じて探査する:UCB1、MBIE…

困った事になってきた

PGLeaf Drei Phase 2ですが、αβ探索と組み合わせてるんですが、探索深さによって収束したりしなかったりします。 具体的には 1手読み → 収束せず 2手読み → 8~9割程度の割合で正しく収束 3手読み → 収束せず 4手読み → 5~6割程度の割合で正しく収束 という…

PGLeaf Drei Phase 2、もうちょっと頑張らないとだね

え~、昨夜は5回の試行でちゃんと収束したですが、50回試行すると収束しないケースがチラホラ… やっぱり、少ない学習回数での結果は信用なりませんね。 この状態でPhase 3を実装しても収束するとは思えないんで、もうちょっと弄くり回してみます。