TDLeaf(λ)の修正完了（したハズ） - GA将？開発日記～王理のその先へ～

　リバーシでの実験だけですが、ちゃんと方策オフに修正出来たと思います。多分。

　前にも書いたと思うのですが、エージェント自身がグリーディーな行動をしたか*1だけではなくて、対局相手がグリーディーな行動をしたかを考慮するのが必要でした。

　後は方策のインタフェースとかその辺をエージェントの必要にあわせて修正したりとか、そんな感じ。基本的には小規模修正の積み重ねでした。

　んで、修正後は収束が速くなりましたし、オプティミスティック初期値*2を使わなくても、正しい結果に収束する様になりました。

　と言っても、まだ4x4のリバーシでテストしただけなんですが。

　明日は将棋用のエージェントに同じ修正をして、上手く動く様だったら王手将棋でテストしてみます。

*1:最善手を指したか

*2:「楽観的な」初期値を評価関数に設定する事で、色々な行動を試す様にする手法