TreeStrapに対するTDLeaf(λ)の優位性
について考えてみました。
んで、やっぱり「手を指したずっと後の局面の評価値・報酬の情報を利用可能」ってのがそれなんじゃないかと。
TreeStrapの論文には「探索中の情報を捨ててるからTDLeaf(λ)には無駄が多いし、PV末端ノードの評価値しか修正しないので色々問題がある」ってな事が書いてあったはずですが、それは浅い探索での対局を多くこなせばある程度解消出来る問題ですし。
うーん、もうちょっとTDLeaf(λ)であがいてみるか? ノイズ付加探査で一つアイデアもあるし、それも併用しつつ、何とか。