GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

面白そうな論文発見

 強化学習による探索行動の学習

 強化学習における「探査と知識利用のバランスのとり方」は、大抵は「いかに上手く乱数を使うか」って方向で検討されている様です*1。私が知っている限りでは、唯一の例外はUCB1ですが、あれは状態行動対の数が少なくないと使えないので、今は無視します。

 で、ざっと読んだ感じだとこの論文はそうではなくて、知識・経験則を元に探査*2を行えないか、という提案らしいです。

 身近な問題として「10店あるラーメン屋の中から、一番美味しい店を探す」って場合だと、「過去に入った事のある店の中から一番美味かった店に入る」のが知識利用の方法。

 んで、例えばε-greedy方策だと「サイコロを振って、出た目に対応する店に入る」ってのが探査方法。

 でも、過去の知識を動員して「美味そうな匂いのする店に入ってみる」ってのも探査方法として成立するんじゃないか? って話だと思います。

 この論文がそのまま将棋に使えるかどうかは不明ですが、面白そうなんで一通りちゃんと読んでみます。

*1:という程詳しく知っている訳では無いのですが(汗

*2:「あまり良さそうではない」行動もあえて試す事で、より良い選択肢を探す事。