TDLeaf(λ)の修正完了(したハズ)
リバーシでの実験だけですが、ちゃんと方策オフに修正出来たと思います。多分。
前にも書いたと思うのですが、エージェント自身がグリーディーな行動をしたか*1だけではなくて、対局相手がグリーディーな行動をしたかを考慮するのが必要でした。
後は方策のインタフェースとかその辺をエージェントの必要にあわせて修正したりとか、そんな感じ。基本的には小規模修正の積み重ねでした。
んで、修正後は収束が速くなりましたし、オプティミスティック初期値*2を使わなくても、正しい結果に収束する様になりました。
と言っても、まだ4x4のリバーシでテストしただけなんですが。
明日は将棋用のエージェントに同じ修正をして、上手く動く様だったら王手将棋でテストしてみます。