GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

2016-08-23から1日間の記事一覧

Efficient Exploration for Dialog Policy Learning with Deep BBQ Networks & Replay Buffer Spiking

後で読む

http://arxiv.org/pdf/1608.05081.pdf DQNの次はBBQらしいですよ！

これだけ読めば分かる（かもしれない）強化学習＠コンピュータ将棋界

コンピュータ将棋

はじめに「強化学習将棋」でググッてこのブログに来て貰う人が時々いますが、そう言えばちゃんとした概要を書いていなかったので、自分の復習がてら書いてみます。んで、まず検索すると出てくる二大キーワード。マルコフ決定過程（MDP:Markov Decision P…