GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

三目並べの学習はほぼ成功

 目標探査率*1が0.5の場合、92000局前後・約90分で学習成功。0.33だと19万局経過後もまだ収束していません。

 グラフには出してないですが、先手側が学習した評価関数で、後手完全読みプレイヤーの場合は、もっと早期に収束しています。

 三目並べなので、「真の」評価値が分かる訳ですが、それとのRMSEや相関係数もまぁまぁの値になっています。

 以下、個人的なメモ。

 Criticに使用したDNNは、全結合256ユニット*6層。活性化関数はReLUでDropoutは係数0.5。最終層のみ、活性化関数をTanHに変更した。

 SolverはAdam、base_lrは1E-4。学習率は固定。

 という訳で、次はマルチスレッド学習に対応させて、その後に5五将棋の方で実験してみます。

*1:最善手以外を指した割合の目標値。この値が設定した近辺に来る様に、Softmax方策の温度を自動調整する。