Bootstrapping from Game Tree Search本当の簡単なまとめ
前のが長くなりすぎたんで。
- 既存手法(サミュエルのチェッカープレイヤーやTDLeaf(λ))は内部ノードの評価値を捨てているから非効率的だった。
- TreeStrap(minimax)だと内部ノードの評価値もパラメータ更新に使うので効率的!
- TreeStrap(αβ)だと上界・下界しか分からないケースがあるが、そういう場合に対処した。
- 乱数でパラメータを初期化して自己対戦で学習しても、弱いマスターレベルまで向上した。
実際のαβの動作を考えると、PVに表れないノードの方がはるかに多いので、そういうノードの評価値の精度を向上させるべきってのは納得出来ます。
Figure 2のグラフを見ると、TDLeaf(λ)はまだ伸び代がありそうですが、そこは自分で実験してみるしか無いですね。
という訳で、面白そうなんで実装してみようと思います。持ち時間が今日初めて知った方式なんで苦労しそうですが、それ以外は何とかなりそうです。