原因は分かってみればシンプルだった
昨日書いた件ですが、「読みが正確になる→勝敗読み切りが早くなる→勝敗読み切り局面はBootstrappingしないので正しく学習出来なくなる」と言うのが原因でした。
んで、勝敗読み切り局面もBootstrappingする様に修正したら、無事に正しく収束しました。
ただ、方策勾配法・TD法に関してはまだちゃんと動作していないので、完成度は2割で変わらず、といった感じです。
昨日書いた件ですが、「読みが正確になる→勝敗読み切りが早くなる→勝敗読み切り局面はBootstrappingしないので正しく学習出来なくなる」と言うのが原因でした。
んで、勝敗読み切り局面もBootstrappingする様に修正したら、無事に正しく収束しました。
ただ、方策勾配法・TD法に関してはまだちゃんと動作していないので、完成度は2割で変わらず、といった感じです。