面白そうな論文発見
強化学習における「探査と知識利用のバランスのとり方」は、大抵は「いかに上手く乱数を使うか」って方向で検討されている様です*1。私が知っている限りでは、唯一の例外はUCB1ですが、あれは状態行動対の数が少なくないと使えないので、今は無視します。
で、ざっと読んだ感じだとこの論文はそうではなくて、知識・経験則を元に探査*2を行えないか、という提案らしいです。
身近な問題として「10店あるラーメン屋の中から、一番美味しい店を探す」って場合だと、「過去に入った事のある店の中から一番美味かった店に入る」のが知識利用の方法。
んで、例えばε-greedy方策だと「サイコロを振って、出た目に対応する店に入る」ってのが探査方法。
でも、過去の知識を動員して「美味そうな匂いのする店に入ってみる」ってのも探査方法として成立するんじゃないか? って話だと思います。
この論文がそのまま将棋に使えるかどうかは不明ですが、面白そうなんで一通りちゃんと読んでみます。