信頼と実績のαβ探索
と言う訳で、あっさりMTD(f)を諦めてαβで行く事にしました。
昨日書いた「ヘビーなの」の原因はLMRの再探索絡みで、
- 一度浅く読んだら最善手を更新しそうな値が返ってきた。
- けど、後で通常の深さで再探索したら、実は最善手の評価値を下回っていた。
って場合に起きる現象の様です。
で、これはLMRを使う以上は必ず起きうる事なんで、私には対処不可能と判断してMTD(f)を諦めました。
一応、αβ+LMRとMTD(f)のLMR無しの速度比較はしてみたんですが、MTD(f)の方が遅かったんで、無理してMTD(f)の実装を頑張る事も無いかな、と。
あと、ついさっきまで方策勾配法・全幅深さ1手で18万局程学習させたバージョンをsspと連続対戦させてます。今のところ3勝1敗で勝ち星先行してますが、勝率6割に届くかなぁ…
1敗ってのが龍二枚作った挙句に逆転負けした将棋なんで、何となく先行き不安です。