三目並べの学習はほぼ成功 - GA将？開発日記～王理のその先へ～

　目標探査率*1が0.5の場合、92000局前後・約90分で学習成功。0.33だと19万局経過後もまだ収束していません。

　グラフには出してないですが、先手側が学習した評価関数で、後手完全読みプレイヤーの場合は、もっと早期に収束しています。

　三目並べなので、「真の」評価値が分かる訳ですが、それとのRMSEや相関係数もまぁまぁの値になっています。

　以下、個人的なメモ。

　Criticに使用したDNNは、全結合256ユニット＊6層。活性化関数はReLUでDropoutは係数0.5。最終層のみ、活性化関数をTanHに変更した。

　SolverはAdam、base_lrは1E-4。学習率は固定。

　という訳で、次はマルチスレッド学習に対応させて、その後に5五将棋の方で実験してみます。

*1:最善手以外を指した割合の目標値。この値が設定した近辺に来る様に、Softmax方策の温度を自動調整する。