LIBSVMは断念
どうあがいても評価値の計算が重くなりすぎるので、これは無理だと判断しました。かと言って、自力でSVM実装してLIBSVMより速くするのも無理そう*1なんで、SVM使うのは当面保留。
んで、方策勾配法の方でちょっと気になっていた現象に仮対処。
学習開始時のみ平均パラメータ修正量が大きくなってたんで、ひょっとしたら二駒相対関係とかの滅多に使用しないパラメータもドーンと大きく修正していた可能性があります。
んで、対処法。
- 駒割のパラメータのみ、ある程度学習させた後の値を使用して初期化。その他のパラメータはごく小さな乱数で。
- 学習開始時の温度をやや高目に設定。
とりあえずこれで学習させてみて、しばらく様子を見ます。
*1:てか、実装するの自体無理ポ