近況 - GA将？開発日記～王理のその先へ～

　Averaged Perceptronを使って色々やってます。TDLeaf(λ)とか方策勾配法でやったり、学習用の自己対戦時に平均化されたパラメータを使ったり。

　んで、Averagedでやってみた感じですが、通常より学習率高めにしても平均化されるおかげでパラメータの変化が安定する感じです。ただ、パラメータの上昇も遅くなるので、学習率高めた割には収束が速くならない（むしろ遅くなる場合もある）感じです。

　素のTDLeaf(λ)で5五将棋モードだと対sspの勝率6割位だったんですが、なかなかそれは超えれません。うーん。

　あと、http://d.hatena.ne.jp/gamidere/20110323で書いてあったSVR（サポートベクトル回帰）も興味あるんですが、実装が難しそうですし、ちょっと二の足踏んでます。