GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

Bootstrapping from Game Tree Search本当の簡単なまとめ

 前のが長くなりすぎたんで。

  • 既存手法(サミュエルのチェッカープレイヤーやTDLeaf(λ))は内部ノードの評価値を捨てているから非効率的だった。
  • TreeStrap(minimax)だと内部ノードの評価値もパラメータ更新に使うので効率的!
  • TreeStrap(αβ)だと上界・下界しか分からないケースがあるが、そういう場合に対処した。
  • 乱数でパラメータを初期化して自己対戦で学習しても、弱いマスターレベルまで向上した。

 実際のαβの動作を考えると、PVに表れないノードの方がはるかに多いので、そういうノードの評価値の精度を向上させるべきってのは納得出来ます。

 Figure 2のグラフを見ると、TDLeaf(λ)はまだ伸び代がありそうですが、そこは自分で実験してみるしか無いですね。

 という訳で、面白そうなんで実装してみようと思います。持ち時間が今日初めて知った方式なんで苦労しそうですが、それ以外は何とかなりそうです。