三目並べの学習はほぼ成功
目標探査率*1が0.5の場合、92000局前後・約90分で学習成功。0.33だと19万局経過後もまだ収束していません。
グラフには出してないですが、先手側が学習した評価関数で、後手完全読みプレイヤーの場合は、もっと早期に収束しています。
三目並べなので、「真の」評価値が分かる訳ですが、それとのRMSEや相関係数もまぁまぁの値になっています。
以下、個人的なメモ。
Criticに使用したDNNは、全結合256ユニット*6層。活性化関数はReLUでDropoutは係数0.5。最終層のみ、活性化関数をTanHに変更した。
SolverはAdam、base_lrは1E-4。学習率は固定。
という訳で、次はマルチスレッド学習に対応させて、その後に5五将棋の方で実験してみます。
*1:最善手以外を指した割合の目標値。この値が設定した近辺に来る様に、Softmax方策の温度を自動調整する。