Softmax実現確率探索 もうちょっとで完成?
Softmax実現確率探索ですが、ある程度はちゃんと学習が進む様になりました。
具体的には、5五将棋でssp相手に271-?-61で勝率81.6%、95%信頼区間が77.0〜85.6。
多分、「全幅探索ベースで前向き枝刈りはLMRのみ」の場合と同じ位の強さです。
んで、今日は着手評価関数の特徴として「ハッシュの手」と「Killer Move」を追加して、それで学習中。
こっちは、1万3千局ほど学習した後に過学習っぽい現象が起きています。
原因に関してはこれから追求しますが、過学習するって事はある程度まではちゃんと動いてるって事なので、先行きは楽観的に見ています。
という訳で、電王トーナメントまでには探索パラメータの学習が成功するかも、という感じです。