GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

さて、どこから手をつけたもんか

 今週末はTreeStrap(minimax)とかTDLeaf(λ)とかで走らせてログを見つつ、どこから着手しようかとひたすら悩んでました。

 以前の日記でTreeStrapやろうかと書いたんですが、理論的にはTDLeaf(λ)の方がちゃんと裏付けあるし、基本的にはそっちで頑張ってみようか、とかも考えてます。

 後、評価関数のソースをあちこち眺めて、どっか怪しい所が無いかと探してみたりも。学習アルゴリズムが3つあって3つとも成功しないって事は、それ以外の評価関数なり探索なりが怪しい、って可能性も残ってますし。

 それから、TreeStrapってTD法の拡張って考えれるんじゃないかとか思ってみたり。

 通常のTD法だと、ある局面の評価値を(実際の対局での)後の局面の評価値に近付けます*1が、その近付ける操作をゲーム木内部にまで適用するのがTreeStrapなんじゃないかと。

 と考えると、TreeStrapの収束性の証明が出来そうですが、私はそこまで頭良くないんでパス。「多分収束するだろう」位に考えときます。

 あー、それにしても、今後の方針どうしよう。選手権締切が明日だから、それまでに目処が立たなけりゃ今回はパスかな。

*1:厳密に書くと違うんですが、とりあえずこう書いときます