GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

三目並べの方策勾配法、一応完成

 まだ収束が遅くて10万局前後かかってますが、ちゃんと引き分けに収束しました。

 収束は多分TD(λ)より遅いですが*1、問題は収束速度より伸び代なんで、そっち方面で期待しています。あと、関数近似を入れると収束速くなるかもしれませんし*2

 さてと、それじゃぁ早速将棋の方の修正しますか。

*1:TD(λ)の正確なデータは紛失してるんで、あくまで推測です

*2:三目並べはテーブル形式の評価関数です