2010-09-23 三目並べの方策勾配法、一応完成 開発日記 まだ収束が遅くて10万局前後かかってますが、ちゃんと引き分けに収束しました。 収束は多分TD(λ)より遅いですが*1、問題は収束速度より伸び代なんで、そっち方面で期待しています。あと、関数近似を入れると収束速くなるかもしれませんし*2。 さてと、それじゃぁ早速将棋の方の修正しますか。 *1:TD(λ)の正確なデータは紛失してるんで、あくまで推測です *2:三目並べはテーブル形式の評価関数です