GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

Bootstrapping from Game Tree Search本当の簡単なまとめ

開発日記

　前のが長くなりすぎたんで。

既存手法（サミュエルのチェッカープレイヤーやTDLeaf(λ)）は内部ノードの評価値を捨てているから非効率的だった。
TreeStrap(minimax)だと内部ノードの評価値もパラメータ更新に使うので効率的！
TreeStrap(αβ)だと上界・下界しか分からないケースがあるが、そういう場合に対処した。
乱数でパラメータを初期化して自己対戦で学習しても、弱いマスターレベルまで向上した。

　実際のαβの動作を考えると、PVに表れないノードの方がはるかに多いので、そういうノードの評価値の精度を向上させるべきってのは納得出来ます。

　Figure 2のグラフを見ると、TDLeaf(λ)はまだ伸び代がありそうですが、そこは自分で実験してみるしか無いですね。

　という訳で、面白そうなんで実装してみようと思います。持ち時間が今日初めて知った方式なんで苦労しそうですが、それ以外は何とかなりそうです。