GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

ちょっと思い付いた

 今の自己対戦での強化学習は対局終了時に報酬を与えているけど、これを囲いが完成したら報酬を与えて、そこで対局打ち切るってのはどうだろうか。

 もしこれでちゃんと囲える様なら、評価関数や探索じゃなくて、どっか別の要因で囲いの学習が出来ないって事になりますし、囲えないなら評価関数周りが怪しいって事になります。

 まぁ、実装は簡単そうだから、明日にでもサクっとやってみます。