GA将?開発日記~王の理とは~

ネタ勢最強を目指して絶賛開発中。

後で読む

なんとなく、私がやりたいのは最終的にベイズ方策勾配法に落ち着く様な気がしてきた

http://papers.nips.cc/paper/2993-bayesian-policy-gradient-algorithms.pdf ただ、論文読んでも理論もアルゴリズムもサッパリ分からんw

Strategic Exploration in Object-Oriented Reinforcement Learning

http://jaywhang.com/assets/icml2018erl.pdf モデルベースでのプランニングを導入した探査手法?らしい。

Learning to Explore via Meta-Policy Gradient

Learning to Explore via Meta-Policy Gradient ざっと読んだ感じだと Off-Policy学習*1と組み合わせるのが前提のメタ学習アルゴリズム。 Exploration Policyと呼ぶ方策を導入し、これを方策勾配法で学習する。 通常の*2方策のパラメータ更新前後の予測報酬…

GPW2017から3本

強化学習を用いた評価関数の作成手法の信頼性の分析 将棋における勾配ブースティング木を用いた評価関数 Hybrid Reward Architecture を用いたリアルタイムな意思決定の改善 どれも非常に面白そうなんですが、現在AlphaGo Zeroの学習ルーチンを真似するので…

Cold-Start Reinforcement Learning with Softmax Policy Gradients

https://arxiv.org/pdf/1709.09346.pdf やってる事(Softmax方策+方策勾配法)は基本的にPGLeafも同様なので、何かの参考になるかも。

Count-Based Exploration in Feature Space for Reinforcement Learning

https://arxiv.org/pdf/1706.08090.pdf 強化学習と関数近似を組み合わせた場合に、 φ-pseudocountと呼ぶ指標を元に探査を行う手法らしい。 大きな状態行動空間でも効率的に学習可能とあるので、コンピュータ将棋への応用も期待出来そう。

Parameter Space Noise for Exploration

https://arxiv.org/pdf/1706.01905.pdf 前やって失敗した手法に似てるかも。何か新しい知見が得られればと。

Sample Efficient Actor-Critic with Experience Replay

https://arxiv.org/abs/1611.01224 Actor-Criticと方策勾配法・Experience Replayを組み合わせた手法らしい。 一度読んでみて、GA将に取り入れられそうなら実装しますか。 あ、それから、前書いた「好奇心」の手法ですが、「報酬がスパースな場合*1に極めて…

Curiosity-driven Exploration by Self-supervised Prediction

piqcyさんのツイートから発見。強化学習において、特に高次元になると報酬が得られる機会はとても少なくなる。そこで「好奇心」、つまり新規性のある環境への到達について報酬を設定することで学習速度を上げる試み。これによりベースライン(A3C)よりも高い…

COMBINING POLICY GRADIENT AND Q-LEARNING

https://pdfs.semanticscholar.org/c59d/19162ca24f412e4bbb10095c942c71815a57.pdf Abstract読んだ限りでは、表題そのまんまな内容らしい。

カーネル法による構造データの解析

http://www.geocities.co.jp/kashi_pong/publication/PRMUslide.pdf 将棋の駒組みは有向グラフとして表せるから、それを何とか評価関数に落とし込めないかと思っていたんですが、この手法なら行ける…かも。 基本的には「有向グラフを、任意ノードから始めて…

Online Learning Rate Adaptation with Hypergradient Descent

https://arxiv.org/abs/1703.04782 直前の勾配と現在の勾配の関係から、学習率を自動調整するらしい。

Evolution Strategies as a Scalable Alternative to Reinforcement Learning

https://arxiv.org/abs/1703.03864 ひょっとして、GA将のGAが復活する、かも!?

A New Softmax Operator for Reinforcement Learning

https://arxiv.org/pdf/1612.05628.pdf

PGQ: COMBINING POLICY GRADIENT AND Q-LEARNING

https://arxiv.org/pdf/1611.01626.pdf Deepmindの中の人の論文。方策勾配法とQ学習の組み合わせらしい。

Efficient Exploration for Dialog Policy Learning with Deep BBQ Networks & Replay Buffer Spiking

http://arxiv.org/pdf/1608.05081.pdf DQNの次はBBQらしいですよ!

Exploration in Gradient-Based Reinforcement Learning

http://dspace.mit.edu/bitstream/handle/1721.1/6076/AIM-2001-003.pdf?sequence=2

Deterministic Policy Gradient Algorithms

http://jmlr.org/proceedings/papers/v32/silver14.pdf

Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models

http://arxiv.org/pdf/1507.00814.pdf

Accelerating Stochastic Gradient Descent via Online Learning to Sample

http://arxiv.org/pdf/1506.09016.pdf

Gradient-based Hyperparameter Optimization through Reversible Learning

http://arxiv.org/pdf/1502.03492v2.pdf Abstractを読んだ限りだと、教師あり学習を対象にしているっぽい雰囲気。 まぁ、ちゃんと読めばその辺はっきりするでしょう。

Policy Tree: Adaptive Representation for Policy Gradient

http://webdocs.cs.ualberta.ca/~bowling/papers/15aaai-policytree.pdf Decision Treeと方策勾配法を組み合わせて、状況に応じて方策を切り替えれる様にする手法(だと思う、多分)。 面白そうだしコンピュータ将棋と相性が良さそうなんで、選手権後にでも…

Parameter-exploring Policy Gradients

http://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/Neural-Networks-2010-Sehnke_[0].pdf

大域的収束性を持つ方策探索法

「e射影に基づく方策探索法」 https://kaigi.org/jsai/webprogram/2014/pdf/781.pdf これで「後で読む」が4つになっちゃいました… どっかで時間作って読まないと。

MCTSのシミュレーション方策の学習

「Improvements to MCTS Simulation Policies in Go」 https://www.wpi.edu/Pubs/E-project/Available/E-project-042914-175427/unrestricted/MCTS_Simulation_Policies_in_Go.pdf

強化学習の論文2件

「Deep Learning in Neural Networks: An Overview」 http://arxiv.org/pdf/1404.7828.pdf 「Active Reward Learning」 http://www.ias.tu-darmstadt.de/uploads/Publications/Daniel_RSS_2014.pdf