TreeStrap(minimax)、頑張ってみるか?
方策勾配法は上手く行かないし、TreeStrapはTDLeaf(λ)をぶっちぎったらしいし、それならTreeStrapを選ばない手は無いよなぁ。
んで、TreeStrap(αβ)とTreeStrap(minimax)の差は僅からしいんで、それならシンプルなminimaxの方が練習には向いてる気がする。
よし、もう一度論文読んで勉強し直そう。
方策勾配法は上手く行かないし、TreeStrapはTDLeaf(λ)をぶっちぎったらしいし、それならTreeStrapを選ばない手は無いよなぁ。
んで、TreeStrap(αβ)とTreeStrap(minimax)の差は僅からしいんで、それならシンプルなminimaxの方が練習には向いてる気がする。
よし、もう一度論文読んで勉強し直そう。