面白そうな論文発見 - GA将？開発日記～王理のその先へ～

　強化学習における「探査と知識利用のバランスのとり方」は、大抵は「いかに上手く乱数を使うか」って方向で検討されている様です*1。私が知っている限りでは、唯一の例外はUCB1ですが、あれは状態行動対の数が少なくないと使えないので、今は無視します。

　で、ざっと読んだ感じだとこの論文はそうではなくて、知識・経験則を元に探査*2を行えないか、という提案らしいです。

　身近な問題として「10店あるラーメン屋の中から、一番美味しい店を探す」って場合だと、「過去に入った事のある店の中から一番美味かった店に入る」のが知識利用の方法。

　んで、例えばε-greedy方策だと「サイコロを振って、出た目に対応する店に入る」ってのが探査方法。

　でも、過去の知識を動員して「美味そうな匂いのする店に入ってみる」ってのも探査方法として成立するんじゃないか？って話だと思います。

　この論文がそのまま将棋に使えるかどうかは不明ですが、面白そうなんで一通りちゃんと読んでみます。

*1:という程詳しく知っている訳では無いのですが（汗

*2:「あまり良さそうではない」行動もあえて試す事で、より良い選択肢を探す事。