方策勾配法とカーネル法を組み合わせれないかと検討中
以前に自然方策勾配法の実装を検討した時は、パラメータ数が多すぎて無理(メモリに載らない)という理由で断念しました。ですが、STRさんの手法を真似てカーネル法を使えば、パラメータ数を減らせれるので自然方策勾配法が使用可能ではないかと。
低次元の特徴として以下のものを用いれば、約4000パラメータで表現可能ですし、これなら十分実用可能かと。(以下のパラメータ数は進行度を加味する場合。進行度を考えないなら、更に半分になる。)
- 駒割(盤上の駒+持ち駒の枚数):パラメータ数294
- 駒の絶対位置:同2268
- 駒の自由度:同616
- 王将の移動可能範囲:同810(距離5まで見る場合)
問題はカーネル法も自然方策勾配法もまだ理解出来て無いって事なんで、これはボチボチと勉強していきます。