Learning Efficient and Effective Exploration Policies with Counterfactual Meta Policy

後で読む

https://arxiv.org/pdf/1905.11583.pdf とりあえず読んで、応用出来そうならやってみます。

2018-12-18

なんとなく、私がやりたいのは最終的にベイズ方策勾配法に落ち着く様な気がしてきた

後で読む

http://papers.nips.cc/paper/2993-bayesian-policy-gradient-algorithms.pdf ただ、論文読んでも理論もアルゴリズムもサッパリ分からんｗ

2018-11-10

Strategic Exploration in Object-Oriented Reinforcement Learning

後で読む

http://jaywhang.com/assets/icml2018erl.pdf モデルベースでのプランニングを導入した探査手法？らしい。

2018-07-10

Learning to Explore via Meta-Policy Gradient

後で読む

Learning to Explore via Meta-Policy Gradient ざっと読んだ感じだと Off-Policy学習*1と組み合わせるのが前提のメタ学習アルゴリズム。 Exploration Policyと呼ぶ方策を導入し、これを方策勾配法で学習する。通常の*2方策のパラメータ更新前後の予測報酬…

2017-11-30

GPW2017から3本

後で読む

強化学習を用いた評価関数の作成手法の信頼性の分析将棋における勾配ブースティング木を用いた評価関数 Hybrid Reward Architecture を用いたリアルタイムな意思決定の改善どれも非常に面白そうなんですが、現在AlphaGo Zeroの学習ルーチンを真似するので…

2017-10-03

Cold-Start Reinforcement Learning with Softmax Policy Gradients

後で読む

https://arxiv.org/pdf/1709.09346.pdf やってる事（Softmax方策＋方策勾配法）は基本的にPGLeafも同様なので、何かの参考になるかも。

2017-07-01

Count-Based Exploration in Feature Space for Reinforcement Learning

後で読む

https://arxiv.org/pdf/1706.08090.pdf 強化学習と関数近似を組み合わせた場合に、 φ-pseudocountと呼ぶ指標を元に探査を行う手法らしい。大きな状態行動空間でも効率的に学習可能とあるので、コンピュータ将棋への応用も期待出来そう。

2017-06-13

Parameter Space Noise for Exploration

後で読む

https://arxiv.org/pdf/1706.01905.pdf 前やって失敗した手法に似てるかも。何か新しい知見が得られればと。

2017-05-23

Sample Efficient Actor-Critic with Experience Replay

後で読む

https://arxiv.org/abs/1611.01224 Actor-Criticと方策勾配法・Experience Replayを組み合わせた手法らしい。一度読んでみて、GA将に取り入れられそうなら実装しますか。あ、それから、前書いた「好奇心」の手法ですが、「報酬がスパースな場合*1に極めて…

2017-05-19

Curiosity-driven Exploration by Self-supervised Prediction

後で読む

piqcyさんのツイートから発見。強化学習において、特に高次元になると報酬が得られる機会はとても少なくなる。そこで「好奇心」、つまり新規性のある環境への到達について報酬を設定することで学習速度を上げる試み。これによりベースライン(A3C)よりも高い…

2017-05-02

COMBINING POLICY GRADIENT AND Q-LEARNING

後で読む

https://pdfs.semanticscholar.org/c59d/19162ca24f412e4bbb10095c942c71815a57.pdf Abstract読んだ限りでは、表題そのまんまな内容らしい。

2017-03-27

カーネル法による構造データの解析

後で読む

http://www.geocities.co.jp/kashi_pong/publication/PRMUslide.pdf 将棋の駒組みは有向グラフとして表せるから、それを何とか評価関数に落とし込めないかと思っていたんですが、この手法なら行ける…かも。基本的には「有向グラフを、任意ノードから始めて…

2017-03-23

Online Learning Rate Adaptation with Hypergradient Descent

後で読む

https://arxiv.org/abs/1703.04782 直前の勾配と現在の勾配の関係から、学習率を自動調整するらしい。

2017-03-15

Evolution Strategies as a Scalable Alternative to Reinforcement Learning

後で読む

https://arxiv.org/abs/1703.03864 ひょっとして、GA将のGAが復活する、かも！？

2016-12-24

A New Softmax Operator for Reinforcement Learning

後で読む

https://arxiv.org/pdf/1612.05628.pdf

2016-11-12

PGQ: COMBINING POLICY GRADIENT AND Q-LEARNING

後で読む

https://arxiv.org/pdf/1611.01626.pdf Deepmindの中の人の論文。方策勾配法とQ学習の組み合わせらしい。

2016-08-23

Efficient Exploration for Dialog Policy Learning with Deep BBQ Networks & Replay Buffer Spiking

後で読む

http://arxiv.org/pdf/1608.05081.pdf DQNの次はBBQらしいですよ！

2015-10-06

Exploration in Gradient-Based Reinforcement Learning

後で読む

http://dspace.mit.edu/bitstream/handle/1721.1/6076/AIM-2001-003.pdf?sequence=2

2015-10-01

Deterministic Policy Gradient Algorithms

後で読む

http://jmlr.org/proceedings/papers/v32/silver14.pdf

2015-07-11

Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models

後で読む

http://arxiv.org/pdf/1507.00814.pdf

2015-07-04

Accelerating Stochastic Gradient Descent via Online Learning to Sample

後で読む

http://arxiv.org/pdf/1506.09016.pdf

2015-02-17

Gradient-based Hyperparameter Optimization through Reversible Learning

後で読む

http://arxiv.org/pdf/1502.03492v2.pdf Abstractを読んだ限りだと、教師あり学習を対象にしているっぽい雰囲気。まぁ、ちゃんと読めばその辺はっきりするでしょう。

2015-02-17

Policy Tree: Adaptive Representation for Policy Gradient

後で読む

http://webdocs.cs.ualberta.ca/~bowling/papers/15aaai-policytree.pdf Decision Treeと方策勾配法を組み合わせて、状況に応じて方策を切り替えれる様にする手法（だと思う、多分）。面白そうだしコンピュータ将棋と相性が良さそうなんで、選手権後にでも…

2015-02-14

Parameter-exploring Policy Gradients

後で読む

http://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/Neural-Networks-2010-Sehnke_[0].pdf

2014-05-13

大域的収束性を持つ方策探索法

後で読む

「e射影に基づく方策探索法」 https://kaigi.org/jsai/webprogram/2014/pdf/781.pdf これで「後で読む」が4つになっちゃいました… どっかで時間作って読まないと。

2014-05-10

MCTSのシミュレーション方策の学習

後で読む

「Improvements to MCTS Simulation Policies in Go」 https://www.wpi.edu/Pubs/E-project/Available/E-project-042914-175427/unrestricted/MCTS_Simulation_Policies_in_Go.pdf

2014-05-06

強化学習の論文2件

後で読む

「Deep Learning in Neural Networks: An Overview」 http://arxiv.org/pdf/1404.7828.pdf 「Active Reward Learning」 http://www.ias.tu-darmstadt.de/uploads/Publications/Daniel_RSS_2014.pdf

GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

後で読む

Learning Efficient and Effective Exploration Policies with Counterfactual Meta Policy

なんとなく、私がやりたいのは最終的にベイズ方策勾配法に落ち着く様な気がしてきた

Strategic Exploration in Object-Oriented Reinforcement Learning

Learning to Explore via Meta-Policy Gradient

GPW2017から3本

Cold-Start Reinforcement Learning with Softmax Policy Gradients

Count-Based Exploration in Feature Space for Reinforcement Learning

Parameter Space Noise for Exploration

Sample Efficient Actor-Critic with Experience Replay

Curiosity-driven Exploration by Self-supervised Prediction

COMBINING POLICY GRADIENT AND Q-LEARNING

カーネル法による構造データの解析

Online Learning Rate Adaptation with Hypergradient Descent

Evolution Strategies as a Scalable Alternative to Reinforcement Learning

A New Softmax Operator for Reinforcement Learning

PGQ: COMBINING POLICY GRADIENT AND Q-LEARNING

Efficient Exploration for Dialog Policy Learning with Deep BBQ Networks & Replay Buffer Spiking

Exploration in Gradient-Based Reinforcement Learning

Deterministic Policy Gradient Algorithms

Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models

Accelerating Stochastic Gradient Descent via Online Learning to Sample

Gradient-based Hyperparameter Optimization through Reversible Learning

Policy Tree: Adaptive Representation for Policy Gradient

Parameter-exploring Policy Gradients

大域的収束性を持つ方策探索法

MCTSのシミュレーション方策の学習

強化学習の論文2件