2019-09-10 探査自体を強化学習問題として解く論文(多分) 強化学習による探索行動の学習 強化学習における探査*1を、ε-GreedyやSoftmaxの様な乱数を用いる手法ではなく、過去の経験・知識をもとに実現した論文(だと思う)。 論文ではグリッドワールドや迷路を題材にし、意図した通りの結果が実験的に得られたと書かれている。 論文の手法をそのままGA将?に適用するのは難しそうだが、考え方自体は非常に面白いので、なんとかして真似てみようと思う。 *1:論文では「探索」と記載されているが、αβ探索との混同を避ける為、本記事では「探査」で統一する