Deep Learning始めました
Caffeの導入も無事終わり、現在は三目並べにDeep Learningを利用して実験中です。
んで、困った現象が一つ。
まず、学習自体はちゃんと出来ている様です。学習した評価関数*1を使用して自己対局すると、ちゃんと引き分けます。また、片方のプレイヤーを学習した評価関数にして、完全読みプレイヤー*2相手に対局すると、やっぱり100%引き分けます。
ただ、Criticの評価値と真の評価値*3のRMSEが、学習を進めるとどんどん増加していきます。
この部分、本当のバグなのかRMSEの計算が間違っているのか、まだ確信が持てないんで、もうしばらく調査を継続します。