気になる論文
インクリメンタルサポートベクターマシンによる価値関数の学習
強化学習におけるexplorationとexploitationの制御
もう一回カーネル法評価関数に手を出すなら、SVMにした方が良さ気だし、一度試してみたいです。単純に線形評価関数をカーネル法評価関数に置き換えると、学習時に出現した局面の(低次元の)特徴量を全部覚えとく必要があって、かなりムダが多いと感じています。
で、オンライン学習可能なインクリメンタルSVMならその辺解決してくれないかなぁ、と期待。三目並べで検証しているみたいなんで、上手く行けば論文の手法をそのまま将棋に適用出来そうです。
後者は…正直あんまり期待してなかったりして。この手の論文は、同一の状態や行動を複数回試せるのを前提としている事が多いので、将棋では使えないケースが多いです。
ただ、気になるっちゃ気になるんで、一度読んでみます。