GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

久々の登場!

 まず近況から。シングルエンジンでの方策勾配法による学習を5五将棋で試してみました。

 で、具体的には全幅探索の深さ0手で駒割がそこそこ妥当な値になるのを確認し、そのパラメータを引き継いで深さ1で学習させてみました。

 深さ1だと24時間あたり12万局程度の速度で、それを多分4〜5日走らせていました。

 ただ、結果は対sspで勝率30%中盤〜40%程度なので、全然弱いです。

 んで、それならもっと深く読んで学習させてみよう→でも、深くすると対局数が減る→なら、LMRでザクっと短縮させてスピードアップ! という流れで、ルートノードからLMRが有効になる様にして、現在学習を開始した所です。LMR絡みのパラメータは、探索前に初期化する方式でやってます。

 今度はパラメータファイルの引き継ぎ無しで、いきなり3手読みで学習開始です。

 あ、それから忘れてたけど、全幅0手以降は正則化係数1E-7でL1正則化してたんですが、効果が不明なので今回は正則化無効で。

 それと、6月17日バージョンから駒割の特徴量を他の特徴量の10倍にして、学習時に駒割を重視する様にしてみました。これは大分効果があった様で、以前の様に序盤から評価値*1が1000を超えたりはしなくなりました。まぁ、それと強さとの関係は微妙な所なんですが。

 後、今ソース見てて気付いたんですが、recaptureの0.5手延長が思いっ切りバグってたんで、そこも修正。けど、これは大幅に強さ変わる様な部分でも無さそうだなぁ…

*1:Centi Pawnの値