2011-09-05 ちょっと思い付いた 開発日記 今の自己対戦での強化学習は対局終了時に報酬を与えているけど、これを囲いが完成したら報酬を与えて、そこで対局打ち切るってのはどうだろうか。 もしこれでちゃんと囲える様なら、評価関数や探索じゃなくて、どっか別の要因で囲いの学習が出来ないって事になりますし、囲えないなら評価関数周りが怪しいって事になります。 まぁ、実装は簡単そうだから、明日にでもサクっとやってみます。