Deep Learning始めました - GA将？開発日記～王理のその先へ～

　Caffeの導入も無事終わり、現在は三目並べにDeep Learningを利用して実験中です。

　んで、困った現象が一つ。

　まず、学習自体はちゃんと出来ている様です。学習した評価関数*1を使用して自己対局すると、ちゃんと引き分けます。また、片方のプレイヤーを学習した評価関数にして、完全読みプレイヤー*2相手に対局すると、やっぱり100％引き分けます。

　ただ、Criticの評価値と真の評価値*3のRMSEが、学習を進めるとどんどん増加していきます。

　この部分、本当のバグなのかRMSEの計算が間違っているのか、まだ確信が持てないんで、もうしばらく調査を継続します。

*1:これはDNNではなくテーブル形式の評価関数です

*2:ただし勝ちの手が複数ある場合はいずれか一つをランダムに選ぶ

*3:完全読みで得られた評価値