面白そうな学習アルゴリズムを見つけた
http://d.hatena.ne.jp/n_shuyo/20130805
「能動学習」と言い、教師あり学習の一種(ただ、純粋な教師あり学習からは少し外れる?)らしい。
んで、能動学習の詳細はリンク先を見てもらうとして、こういう考え方を強化学習に応用出来ないものかと検討中。
例えばTD法やその派生アルゴリズムは、環境との相互作用を行いながら、得られる報酬の期待値を求めます。
んで、その時に用いる方策は「強い」方策である必要は無いので、重点的にサンプリングしたい局面に誘導する様な方策を使っても良いんじゃないかと。
例えば、勝敗に応じた報酬が+1と-1の場合、評価値は大体[-1,+1]の範囲に収まります。
ですが、例えば評価値が0.8程度の局面(≒勝率90%程度の局面)に関しては、それ以上サンプリングして正確な評価値を見積る価値はあまり無いんじゃないかと考えています。
そこで、評価値がある程度上がったら、わざと手を抜いて(あるいは駒を捨てる等して)評価値が0付近の局面に誘導するって方策もアリかと思います。
まぁ、その辺はOff-Policyで学習する必要があるんじゃないかとか色々考えていますが、一度実験してみたいですね。