今の自己対戦での強化学習は対局終了時に報酬を与えているけど、これを囲いが完成したら報酬を与えて、そこで対局打ち切るってのはどうだろうか。 もしこれでちゃんと囲える様なら、評価関数や探索じゃなくて、どっか別の要因で囲いの学習が出来ないって事に…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。