さて、どこから手をつけたもんか - GA将？開発日記～王理のその先へ～

　今週末はTreeStrap(minimax)とかTDLeaf(λ)とかで走らせてログを見つつ、どこから着手しようかとひたすら悩んでました。

　以前の日記でTreeStrapやろうかと書いたんですが、理論的にはTDLeaf(λ)の方がちゃんと裏付けあるし、基本的にはそっちで頑張ってみようか、とかも考えてます。

　後、評価関数のソースをあちこち眺めて、どっか怪しい所が無いかと探してみたりも。学習アルゴリズムが3つあって3つとも成功しないって事は、それ以外の評価関数なり探索なりが怪しい、って可能性も残ってますし。

　それから、TreeStrapってTD法の拡張って考えれるんじゃないかとか思ってみたり。

　通常のTD法だと、ある局面の評価値を（実際の対局での）後の局面の評価値に近付けます*1が、その近付ける操作をゲーム木内部にまで適用するのがTreeStrapなんじゃないかと。

　と考えると、TreeStrapの収束性の証明が出来そうですが、私はそこまで頭良くないんでパス。「多分収束するだろう」位に考えときます。

　あー、それにしても、今後の方針どうしよう。選手権締切が明日だから、それまでに目処が立たなけりゃ今回はパスかな。

*1:厳密に書くと違うんですが、とりあえずこう書いときます