GA将?開発日記~王の理とは~

ネタ勢最強を目指して絶賛開発中。

Deep Learning始めました

 Caffeの導入も無事終わり、現在は三目並べにDeep Learningを利用して実験中です。

 んで、困った現象が一つ。

 まず、学習自体はちゃんと出来ている様です。学習した評価関数*1を使用して自己対局すると、ちゃんと引き分けます。また、片方のプレイヤーを学習した評価関数にして、完全読みプレイヤー*2相手に対局すると、やっぱり100%引き分けます。

 ただ、Criticの評価値と真の評価値*3のRMSEが、学習を進めるとどんどん増加していきます。

 この部分、本当のバグなのかRMSEの計算が間違っているのか、まだ確信が持てないんで、もうしばらく調査を継続します。

*1:これはDNNではなくテーブル形式の評価関数です

*2:ただし勝ちの手が複数ある場合はいずれか一つをランダムに選ぶ

*3:完全読みで得られた評価値