GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

TDLeaf(λ)の修正完了(したハズ)

 リバーシでの実験だけですが、ちゃんと方策オフに修正出来たと思います。多分。

 前にも書いたと思うのですが、エージェント自身がグリーディーな行動をしたか*1だけではなくて、対局相手がグリーディーな行動をしたかを考慮するのが必要でした。

 後は方策のインタフェースとかその辺をエージェントの必要にあわせて修正したりとか、そんな感じ。基本的には小規模修正の積み重ねでした。

 んで、修正後は収束が速くなりましたし、オプティミスティック初期値*2を使わなくても、正しい結果に収束する様になりました。

 と言っても、まだ4x4のリバーシでテストしただけなんですが。

 明日は将棋用のエージェントに同じ修正をして、上手く動く様だったら王手将棋でテストしてみます。

*1:最善手を指したか

*2:「楽観的な」初期値を評価関数に設定する事で、色々な行動を試す様にする手法