GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2016-08-23から1日間の記事一覧

Efficient Exploration for Dialog Policy Learning with Deep BBQ Networks & Replay Buffer Spiking

http://arxiv.org/pdf/1608.05081.pdf DQNの次はBBQらしいですよ!

これだけ読めば分かる(かもしれない)強化学習@コンピュータ将棋界

はじめに 「強化学習 将棋」でググッてこのブログに来て貰う人が時々いますが、そう言えばちゃんとした概要を書いていなかったので、自分の復習がてら書いてみます。 んで、まず検索すると出てくる二大キーワード。 マルコフ決定過程(MDP:Markov Decision P…