GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

自然方策勾配を実装してみました

 多分、今のままの評価関数では動かないです、これ。

 理由は動かしてみたら分かったんですが、パラメータ更新前に行列Zとqを使って\left(Z^TZ\right)^{-1}Z^Tqという式を計算する必要があります。

 んで、対局中に一度も出現しなかった特徴があると、Zの対応する行・列が全て0になり、逆行列が存在しなくなります。将棋で言うと、「成銀が9九にいるかどうか」とかが特徴になるんで、それら全てが出現する様に対局するのは、かなり困難です。

 という訳で、今のアルゴリズム(Natural Actor-Critic)を使うのは無理そうな感じですね。うーん、困った。