GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

近況

 Averaged Perceptronを使って色々やってます。TDLeaf(λ)とか方策勾配法でやったり、学習用の自己対戦時に平均化されたパラメータを使ったり。

 んで、Averagedでやってみた感じですが、通常より学習率高めにしても平均化されるおかげでパラメータの変化が安定する感じです。ただ、パラメータの上昇も遅くなるので、学習率高めた割には収束が速くならない(むしろ遅くなる場合もある)感じです。

 素のTDLeaf(λ)で5五将棋モードだと対sspの勝率6割位だったんですが、なかなかそれは超えれません。うーん。

 あと、http://d.hatena.ne.jp/gamidere/20110323で書いてあったSVR(サポートベクトル回帰)も興味あるんですが、実装が難しそうですし、ちょっと二の足踏んでます。