k-確実探査法の論文
k-確実探査法 : 強化学習における環境同定のための行動選択戦略という論文が面白そうだったので、購入して読んでみました。
んで、オーソドックスなQ-learningより優秀という結果だったんですが、コンピュータ将棋に応用するには一つ大きな問題が。
行動の種類がm個、状態数がn個の環境で空間的にはO(mn^2)、一試行に要する計算量がO(mn^3)なので、とてもじゃないですが必要な情報がメモリに載りません。てか、HDDにも収まらないかも。
将棋の場合の動作をざっと考えてみたんですが、どう考えても序盤の一部しか正常に探査出来ない感じ。
という訳で、期待して読んでみたものの、将棋に使うのは無理っぽいです。残念。