Softmax実現確率探索を実装&テスト中です。
とりあえず5五将棋でザクッと学習させて、sspと連続対局。
んで、タイトルの通り。実現確率を0.1ずつ減らしていくと、イテレーションが3回でPVの終端までの手数が5〜6手になります*1。
という訳で、リダクションは上手く行ってるんですけど、肝心のイテレーションがあんまり回数こなせなくて、結局「全幅探索ベースとPVの長さは変わらない」という残念な結果に。
遷移確率の学習不足なのか、バグなのか、「仕様です」なのか…
とりあえず、もうちょっと学習が進んでからリトライしますかね。