GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

探査自体を強化学習問題として解く論文(多分)

強化学習による探索行動の学習

 強化学習における探査*1を、ε-GreedyやSoftmaxの様な乱数を用いる手法ではなく、過去の経験・知識をもとに実現した論文(だと思う)。

 論文ではグリッドワールドや迷路を題材にし、意図した通りの結果が実験的に得られたと書かれている。

 論文の手法をそのままGA将?に適用するのは難しそうだが、考え方自体は非常に面白いので、なんとかして真似てみようと思う。

*1:論文では「探索」と記載されているが、αβ探索との混同を避ける為、本記事では「探査」で統一する