久々の登場！ - GA将？開発日記～王理のその先へ～

　まず近況から。シングルエンジンでの方策勾配法による学習を5五将棋で試してみました。

　で、具体的には全幅探索の深さ0手で駒割がそこそこ妥当な値になるのを確認し、そのパラメータを引き継いで深さ1で学習させてみました。

　深さ1だと24時間あたり12万局程度の速度で、それを多分4〜5日走らせていました。

　ただ、結果は対sspで勝率30％中盤〜40％程度なので、全然弱いです。

　んで、それならもっと深く読んで学習させてみよう→でも、深くすると対局数が減る→なら、LMRでザクっと短縮させてスピードアップ！という流れで、ルートノードからLMRが有効になる様にして、現在学習を開始した所です。LMR絡みのパラメータは、探索前に初期化する方式でやってます。

　今度はパラメータファイルの引き継ぎ無しで、いきなり3手読みで学習開始です。

　あ、それから忘れてたけど、全幅0手以降は正則化係数1E-7でL1正則化してたんですが、効果が不明なので今回は正則化無効で。

　それと、6月17日バージョンから駒割の特徴量を他の特徴量の10倍にして、学習時に駒割を重視する様にしてみました。これは大分効果があった様で、以前の様に序盤から評価値*1が1000を超えたりはしなくなりました。まぁ、それと強さとの関係は微妙な所なんですが。

　後、今ソース見てて気付いたんですが、recaptureの0.5手延長が思いっ切りバグってたんで、そこも修正。けど、これは大幅に強さ変わる様な部分でも無さそうだなぁ…

*1:Centi Pawnの値