2017-06-01から1ヶ月間の記事一覧
前に書いた、探索深さをランダムに決める方式での学習ですが、強くなりませんでした。 正確に書くと、学習序盤は比較的伸びが良かったんですが、対局数を増やしてもそっからあんまり伸びませんでした。最終的に、対ssp(5五将棋モード)で勝率77%前後だった…
CNNを使ったActor-CriticとPGLeafのハイブリッド構成ですが、全然強くなる気配がありません。 …で、ですね。ちょっと思い付いたんですよ。従来のPGLeaf改の問題点。 今までは、全幅3手・静止探索10手とかで探索深さを固定して学習させてました。 ただ、これ…
https://arxiv.org/pdf/1706.01905.pdf 前やって失敗した手法に似てるかも。何か新しい知見が得られればと。
前回の日記からしばらく間が空きましたが、ぼちぼち進んでます。 まず、5五将棋・本将棋でもDNNを使ったActor-Criticが動く様に修正。ただ、5五将棋でもCriticの処理*1に1局あたり200ミリ秒とかかかってて実用的ではありませんでした。 んで、次にやったのが…
目標探査率*1が0.5の場合、92000局前後・約90分で学習成功。0.33だと19万局経過後もまだ収束していません。 グラフには出してないですが、先手側が学習した評価関数で、後手完全読みプレイヤーの場合は、もっと早期に収束しています。 三目並べなので、「真…
えー、うちのCritic曰く「三目並べの初期局面の評価値は0.6点」だそうです。勝率80%に相当する数字。 うん、バグってますね。 どこが悪いのかな〜。ネットワークがデカすぎる*1? それとも学習率*2? RMSPropが悪さしてるって事は無いよね〜、多分。 15:14:…
Caffeの導入も無事終わり、現在は三目並べにDeep Learningを利用して実験中です。 んで、困った現象が一つ。 まず、学習自体はちゃんと出来ている様です。学習した評価関数*1を使用して自己対局すると、ちゃんと引き分けます。また、片方のプレイヤーを学習…