TDLeaf(λ)バージョンが強すぎて困る
12万局ほど対局したバージョンのパラメータでsspとの連続対局をさせてたんですが、現在65勝17敗。勝率79.3%。
て事は、以前試したTDLeaf(λ)+TreeStrap(minimax)バージョンは、実はTDLeaf(λ)の効果の方が高かったかもしれないって事ですね。
うーん、意外とTDLeaf(λ)の壁は厚いのかも。
あ、それから、TDLeaf(λ)の学習率が0.01になっていたので、0.001に修正。TreeStrap(minimax)と併用する時のコードがそのまんま残っちゃってました。