Count-Based Exploration in Feature Space for Reinforcement Learning
https://arxiv.org/pdf/1706.08090.pdf
強化学習と関数近似を組み合わせた場合に、 φ-pseudocountと呼ぶ指標を元に探査を行う手法らしい。
大きな状態行動空間でも効率的に学習可能とあるので、コンピュータ将棋への応用も期待出来そう。
https://arxiv.org/pdf/1706.08090.pdf
強化学習と関数近似を組み合わせた場合に、 φ-pseudocountと呼ぶ指標を元に探査を行う手法らしい。
大きな状態行動空間でも効率的に学習可能とあるので、コンピュータ将棋への応用も期待出来そう。