OK、状況を整理しよう
この前からやってた、1局の自己対戦棋譜にオーバーフィッティングさせるテストの件。
まず、5五将棋で勝った側のみ、あるいは負けた側のみの学習だと、一致率がそれぞれ1.0、0.0に収束します。(探索は使わずに、素のREINFORCEで学習した場合。)
ただ、両方のプレイヤーを同時に学習させると、負けた側は0.0に収束するものの勝った側は0.5前後で停滞。
それから、5五将棋ではなく三目並べだと、片側のプレイヤーでも両方でもちゃんと収束する。
以上の事から、「方策勾配法自体には多分問題が無い」と言えると思います。(アルゴリズムが間違っていても正しい結果に収束してしまう事があるので、100%問題無しとは断定出来ませんが。)