久々の登場!
まず近況から。シングルエンジンでの方策勾配法による学習を5五将棋で試してみました。
で、具体的には全幅探索の深さ0手で駒割がそこそこ妥当な値になるのを確認し、そのパラメータを引き継いで深さ1で学習させてみました。
深さ1だと24時間あたり12万局程度の速度で、それを多分4〜5日走らせていました。
ただ、結果は対sspで勝率30%中盤〜40%程度なので、全然弱いです。
んで、それならもっと深く読んで学習させてみよう→でも、深くすると対局数が減る→なら、LMRでザクっと短縮させてスピードアップ! という流れで、ルートノードからLMRが有効になる様にして、現在学習を開始した所です。LMR絡みのパラメータは、探索前に初期化する方式でやってます。
今度はパラメータファイルの引き継ぎ無しで、いきなり3手読みで学習開始です。
あ、それから忘れてたけど、全幅0手以降は正則化係数1E-7でL1正則化してたんですが、効果が不明なので今回は正則化無効で。
それと、6月17日バージョンから駒割の特徴量を他の特徴量の10倍にして、学習時に駒割を重視する様にしてみました。これは大分効果があった様で、以前の様に序盤から評価値*1が1000を超えたりはしなくなりました。まぁ、それと強さとの関係は微妙な所なんですが。
後、今ソース見てて気付いたんですが、recaptureの0.5手延長が思いっ切りバグってたんで、そこも修正。けど、これは大幅に強さ変わる様な部分でも無さそうだなぁ…
*1:Centi Pawnの値