2012-05-29から1日間の記事一覧

面白そうな論文発見

開発日記

強化学習による探索行動の学習強化学習における「探査と知識利用のバランスのとり方」は、大抵は「いかに上手く乱数を使うか」って方向で検討されている様です*1。私が知っている限りでは、唯一の例外はUCB1ですが、あれは状態行動対の数が少なくないと使え…

開発日記

ログを分析してみるも、どこにも異常らしき現象は発見出来ず。それから、ボルツマン分布のテストも問題無し。ほぼ期待値通りの結果になっていました。んで、後の時間は論文読み。インクリメンタルサポートベクターマシンによる価値関数の学習これは正直…