ダメでした＿|￣|○

開発日記

前に書いた、探索深さをランダムに決める方式での学習ですが、強くなりませんでした。正確に書くと、学習序盤は比較的伸びが良かったんですが、対局数を増やしてもそっからあんまり伸びませんでした。最終的に、対ssp（5五将棋モード）で勝率77％前後だった…

過去半年で最高の出来（当社比）になる！…かも

開発日記

CNNを使ったActor-CriticとPGLeafのハイブリッド構成ですが、全然強くなる気配がありません。 …で、ですね。ちょっと思い付いたんですよ。従来のPGLeaf改の問題点。今までは、全幅3手・静止探索10手とかで探索深さを固定して学習させてました。ただ、これ…

後で読む

https://arxiv.org/pdf/1706.01905.pdf 前やって失敗した手法に似てるかも。何か新しい知見が得られればと。

開発日記

前回の日記からしばらく間が空きましたが、ぼちぼち進んでます。まず、5五将棋・本将棋でもDNNを使ったActor-Criticが動く様に修正。ただ、5五将棋でもCriticの処理*1に1局あたり200ミリ秒とかかかってて実用的ではありませんでした。んで、次にやったのが…

開発日記

目標探査率*1が0.5の場合、92000局前後・約90分で学習成功。0.33だと19万局経過後もまだ収束していません。グラフには出してないですが、先手側が学習した評価関数で、後手完全読みプレイヤーの場合は、もっと早期に収束しています。三目並べなので、「真…

開発日記

えー、うちのCritic曰く「三目並べの初期局面の評価値は0.6点」だそうです。勝率80％に相当する数字。うん、バグってますね。どこが悪いのかな〜。ネットワークがデカすぎる*1？それとも学習率*2？ RMSPropが悪さしてるって事は無いよね〜、多分。 15:14:…

開発日記

Caffeの導入も無事終わり、現在は三目並べにDeep Learningを利用して実験中です。んで、困った現象が一つ。まず、学習自体はちゃんと出来ている様です。学習した評価関数*1を使用して自己対局すると、ちゃんと引き分けます。また、片方のプレイヤーを学習…