近況
Averaged Perceptronを使って色々やってます。TDLeaf(λ)とか方策勾配法でやったり、学習用の自己対戦時に平均化されたパラメータを使ったり。
んで、Averagedでやってみた感じですが、通常より学習率高めにしても平均化されるおかげでパラメータの変化が安定する感じです。ただ、パラメータの上昇も遅くなるので、学習率高めた割には収束が速くならない(むしろ遅くなる場合もある)感じです。
素のTDLeaf(λ)で5五将棋モードだと対sspの勝率6割位だったんですが、なかなかそれは超えれません。うーん。
あと、http://d.hatena.ne.jp/gamidere/20110323で書いてあったSVR(サポートベクトル回帰)も興味あるんですが、実装が難しそうですし、ちょっと二の足踏んでます。