強化学習による探索行動の学習 強化学習における「探査と知識利用のバランスのとり方」は、大抵は「いかに上手く乱数を使うか」って方向で検討されている様です*1。私が知っている限りでは、唯一の例外はUCB1ですが、あれは状態行動対の数が少なくないと使え…
ログを分析してみるも、どこにも異常らしき現象は発見出来ず。 それから、ボルツマン分布のテストも問題無し。ほぼ期待値通りの結果になっていました。 んで、後の時間は論文読み。 インクリメンタルサポートベクターマシンによる価値関数の学習 これは正直…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。