後で読む
https://arxiv.org/pdf/1905.11583.pdf とりあえず読んで、応用出来そうならやってみます。
http://papers.nips.cc/paper/2993-bayesian-policy-gradient-algorithms.pdf ただ、論文読んでも理論もアルゴリズムもサッパリ分からんw
http://jaywhang.com/assets/icml2018erl.pdf モデルベースでのプランニングを導入した探査手法?らしい。
Learning to Explore via Meta-Policy Gradient ざっと読んだ感じだと Off-Policy学習*1と組み合わせるのが前提のメタ学習アルゴリズム。 Exploration Policyと呼ぶ方策を導入し、これを方策勾配法で学習する。 通常の*2方策のパラメータ更新前後の予測報酬…
強化学習を用いた評価関数の作成手法の信頼性の分析 将棋における勾配ブースティング木を用いた評価関数 Hybrid Reward Architecture を用いたリアルタイムな意思決定の改善 どれも非常に面白そうなんですが、現在AlphaGo Zeroの学習ルーチンを真似するので…
https://arxiv.org/pdf/1709.09346.pdf やってる事(Softmax方策+方策勾配法)は基本的にPGLeafも同様なので、何かの参考になるかも。
https://arxiv.org/pdf/1706.08090.pdf 強化学習と関数近似を組み合わせた場合に、 φ-pseudocountと呼ぶ指標を元に探査を行う手法らしい。 大きな状態行動空間でも効率的に学習可能とあるので、コンピュータ将棋への応用も期待出来そう。
https://arxiv.org/pdf/1706.01905.pdf 前やって失敗した手法に似てるかも。何か新しい知見が得られればと。
https://arxiv.org/abs/1611.01224 Actor-Criticと方策勾配法・Experience Replayを組み合わせた手法らしい。 一度読んでみて、GA将に取り入れられそうなら実装しますか。 あ、それから、前書いた「好奇心」の手法ですが、「報酬がスパースな場合*1に極めて…
piqcyさんのツイートから発見。強化学習において、特に高次元になると報酬が得られる機会はとても少なくなる。そこで「好奇心」、つまり新規性のある環境への到達について報酬を設定することで学習速度を上げる試み。これによりベースライン(A3C)よりも高い…
https://pdfs.semanticscholar.org/c59d/19162ca24f412e4bbb10095c942c71815a57.pdf Abstract読んだ限りでは、表題そのまんまな内容らしい。
http://www.geocities.co.jp/kashi_pong/publication/PRMUslide.pdf 将棋の駒組みは有向グラフとして表せるから、それを何とか評価関数に落とし込めないかと思っていたんですが、この手法なら行ける…かも。 基本的には「有向グラフを、任意ノードから始めて…
https://arxiv.org/abs/1703.04782 直前の勾配と現在の勾配の関係から、学習率を自動調整するらしい。
https://arxiv.org/abs/1703.03864 ひょっとして、GA将のGAが復活する、かも!?
https://arxiv.org/pdf/1612.05628.pdf
https://arxiv.org/pdf/1611.01626.pdf Deepmindの中の人の論文。方策勾配法とQ学習の組み合わせらしい。
http://arxiv.org/pdf/1608.05081.pdf DQNの次はBBQらしいですよ!
http://dspace.mit.edu/bitstream/handle/1721.1/6076/AIM-2001-003.pdf?sequence=2
http://jmlr.org/proceedings/papers/v32/silver14.pdf
http://arxiv.org/pdf/1507.00814.pdf
http://arxiv.org/pdf/1506.09016.pdf
http://arxiv.org/pdf/1502.03492v2.pdf Abstractを読んだ限りだと、教師あり学習を対象にしているっぽい雰囲気。 まぁ、ちゃんと読めばその辺はっきりするでしょう。
http://webdocs.cs.ualberta.ca/~bowling/papers/15aaai-policytree.pdf Decision Treeと方策勾配法を組み合わせて、状況に応じて方策を切り替えれる様にする手法(だと思う、多分)。 面白そうだしコンピュータ将棋と相性が良さそうなんで、選手権後にでも…
http://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/Neural-Networks-2010-Sehnke_[0].pdf
「e射影に基づく方策探索法」 https://kaigi.org/jsai/webprogram/2014/pdf/781.pdf これで「後で読む」が4つになっちゃいました… どっかで時間作って読まないと。
「Improvements to MCTS Simulation Policies in Go」 https://www.wpi.edu/Pubs/E-project/Available/E-project-042914-175427/unrestricted/MCTS_Simulation_Policies_in_Go.pdf
「Deep Learning in Neural Networks: An Overview」 http://arxiv.org/pdf/1404.7828.pdf 「Active Reward Learning」 http://www.ias.tu-darmstadt.de/uploads/Publications/Daniel_RSS_2014.pdf