三目並べは相変わらず
方策勾配法では、全然学習が進みません。
何か、ほとんどのパラメータが0になっちゃうのと、先手の行動選択に関連するパラメータしか更新していなはずが、何故か後手の行動選択に関連するパラメータまで更新されている、って辺りまでは突き止めたんですが。
うーん、何が悪いんですかねぇ。
方策勾配法では、全然学習が進みません。
何か、ほとんどのパラメータが0になっちゃうのと、先手の行動選択に関連するパラメータしか更新していなはずが、何故か後手の行動選択に関連するパラメータまで更新されている、って辺りまでは突き止めたんですが。
うーん、何が悪いんですかねぇ。