ツツカナ流探索ルーチンの学習法

開発日記

アピール文書には「学習は式（2）を勾配法等で最小化する」とサクッと書かれていますが、私の頭では微分がすぐには出来なかったのでメモ。まずの微分。んで、の微分。の微分は指数部をとして今度はの偏微分ではシグモイド関数の合成関数なのでかなり自…

探索用の特徴量として使いたいもの

開発日記

とりあえず思い付くままに列挙してみて、後で不要そうなら削る方向で。移動元のマス（駒台含めて82通り）移動先のマス（81通り）移動後の駒の種類（14通り）成る手か否か（2通り）取られる駒の種類（13通り）取った駒と取られた駒の種類（14×13通り） …

開発日記

WCSC21の一丸さん（ツツカナの開発者）のアピール文書を読んで、ツツカナの新手法だとαβ＋LMRに対して勝率75％、Rは+190*1ってのを見て、これはやらねば！と。つー事で情報収集。枝刈りとか探索の延長・短縮関連の学習について覚えてる範囲で列挙。「棋理…

開発日記

バグ持ち学習ルーチンの出力ですが、とりあえず連続対戦中。 …3連敗してから10連勝って、いくらなんでもおかしいだろう。いや、単に乱数が偏っただけでしょうけど。

開発日記

前から自己対戦学習がアサーションエラーでたまに止まると思ってたら、置換表のバグでした。原因としては、まず千日手に至る途中の局面（3回目の同一局面とか）の評価値が、3.5とかの普通に評価関数で計算した値で置換表に保存されています。で、4回目の同…

開発日記学習経過

改良型PGLeafで報酬計算の式を修正。で、結果。23万局学習したパラメータで対ssp（5五将棋モード）は300-?-93で勝率76.3％、95％信頼区間は71.8〜80.5。わりかしいい感じなので、次は60万局学習後のパラメータで連続対戦してみます。