多分、今のままの評価関数では動かないです、これ。
理由は動かしてみたら分かったんですが、パラメータ更新前に行列Zとqを使ってという式を計算する必要があります。
んで、対局中に一度も出現しなかった特徴があると、Zの対応する行・列が全て0になり、逆行列が存在しなくなります。将棋で言うと、「成銀が9九にいるかどうか」とかが特徴になるんで、それら全てが出現する様に対局するのは、かなり困難です。
という訳で、今のアルゴリズム(Natural Actor-Critic)を使うのは無理そうな感じですね。うーん、困った。