さて、どこから手をつけたもんか
今週末はTreeStrap(minimax)とかTDLeaf(λ)とかで走らせてログを見つつ、どこから着手しようかとひたすら悩んでました。
以前の日記でTreeStrapやろうかと書いたんですが、理論的にはTDLeaf(λ)の方がちゃんと裏付けあるし、基本的にはそっちで頑張ってみようか、とかも考えてます。
後、評価関数のソースをあちこち眺めて、どっか怪しい所が無いかと探してみたりも。学習アルゴリズムが3つあって3つとも成功しないって事は、それ以外の評価関数なり探索なりが怪しい、って可能性も残ってますし。
それから、TreeStrapってTD法の拡張って考えれるんじゃないかとか思ってみたり。
通常のTD法だと、ある局面の評価値を(実際の対局での)後の局面の評価値に近付けます*1が、その近付ける操作をゲーム木内部にまで適用するのがTreeStrapなんじゃないかと。
と考えると、TreeStrapの収束性の証明が出来そうですが、私はそこまで頭良くないんでパス。「多分収束するだろう」位に考えときます。
あー、それにしても、今後の方針どうしよう。選手権締切が明日だから、それまでに目処が立たなけりゃ今回はパスかな。
*1:厳密に書くと違うんですが、とりあえずこう書いときます