TreeStrap(minimax)半分くらい実装完了
論文のアルゴリズムそのままだと実装に時間がかかりそうだったので、探索しながら内部ノードでいきなりパラメータ更新する*1っていう手抜きコードで実装。取り敢えず動く様になりました。
あ、それから時間制御もFischer time controlsではなく、一手2秒固定でやってます。実装が楽だし。
んで、数局走らせてみたんですが、ちゃんとPVから離れた部分木レベルで学習してます。TDLeaf(λ)はこういう事してくれなかったんで、なんか新鮮ですね。
まだ収束の速さとか強さとかは分からない状態ですが、明日には完成させて、それから4〜5日で学習って感じで予定しています。
*1:論文では、探索が終わってからまとめてパラメータ更新する方式