GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2015-02-17から1日間の記事一覧

Gradient-based Hyperparameter Optimization through Reversible Learning

http://arxiv.org/pdf/1502.03492v2.pdf Abstractを読んだ限りだと、教師あり学習を対象にしているっぽい雰囲気。 まぁ、ちゃんと読めばその辺はっきりするでしょう。

Policy Tree: Adaptive Representation for Policy Gradient

http://webdocs.cs.ualberta.ca/~bowling/papers/15aaai-policytree.pdf Decision Treeと方策勾配法を組み合わせて、状況に応じて方策を切り替えれる様にする手法(だと思う、多分)。 面白そうだしコンピュータ将棋と相性が良さそうなんで、選手権後にでも…