今後の方針について検討中
方策勾配法でパラメータ数が多い場合に学習出来ないとすると、それじゃぁその次はどうするんだって話です。
んで、今はざっと二つ案があります。
- 頑張って方策勾配法で何とかする。
- TDLeaf(λ)やTreeStrap(αβ)に戻る。
出来れば前者で何かしたいけど、現状では何も案無し。厳しいっす。
方策勾配法でパラメータ数が多い場合に学習出来ないとすると、それじゃぁその次はどうするんだって話です。
んで、今はざっと二つ案があります。
出来れば前者で何かしたいけど、現状では何も案無し。厳しいっす。