バグってないかもという結論に達した
PGLeaf Drei Phase 2ですが、探索深さによって収束したりしなかったりする現象、バグでは無さそうです(と言うか、発見出来なかった)。
ログを見ての推測ですが、探索深さを2手以外にすると引き分けになる確率が極端に減り、それによって有効に学習する機会が減ったのが、収束しない原因だと判断しました。
この推測が正しければ、メタ強化学習の実装で克服出来る問題なので、今からPhase 3の実装に入ります。
PGLeaf Drei Phase 2ですが、探索深さによって収束したりしなかったりする現象、バグでは無さそうです(と言うか、発見出来なかった)。
ログを見ての推測ですが、探索深さを2手以外にすると引き分けになる確率が極端に減り、それによって有効に学習する機会が減ったのが、収束しない原因だと判断しました。
この推測が正しければ、メタ強化学習の実装で克服出来る問題なので、今からPhase 3の実装に入ります。