GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

開発日記

　方策勾配法では、全然学習が進みません。

　何か、ほとんどのパラメータが0になっちゃうのと、先手の行動選択に関連するパラメータしか更新していなはずが、何故か後手の行動選択に関連するパラメータまで更新されている、って辺りまでは突き止めたんですが。

　うーん、何が悪いんですかねぇ。