Policy Tree: Adaptive Representation for Policy Gradient
http://webdocs.cs.ualberta.ca/~bowling/papers/15aaai-policytree.pdf
Decision Treeと方策勾配法を組み合わせて、状況に応じて方策を切り替えれる様にする手法(だと思う、多分)。
面白そうだしコンピュータ将棋と相性が良さそうなんで、選手権後にでも実装してみたいですね。
http://webdocs.cs.ualberta.ca/~bowling/papers/15aaai-policytree.pdf
Decision Treeと方策勾配法を組み合わせて、状況に応じて方策を切り替えれる様にする手法(だと思う、多分)。
面白そうだしコンピュータ将棋と相性が良さそうなんで、選手権後にでも実装してみたいですね。