合議+方策勾配法ですが、ソフトマックス方策の温度自動調整で1箇所ミスってて、それを直したら三目並べ・4x4リバーシ共に4クライアントでちゃんと収束しました。リバーシの方は4種類のそれぞれ異なる評価関数でやってもOKだったんで、多分大きなバグはもう…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。