2016-11-09から1日間の記事一覧
@MoriokaYuichi 線形近似の場合でも適用できるかわかりませんが、パラメータの出現回数を数えてMBIE-EBによって出現回数のルート分の1相当のボーナスを加えて行動決定するとかいかがでしょうか。応用されてDeepmind社のDQNに使われています。— Katsuki Ohto …
@MoriokaYuichi 線形近似の場合でも適用できるかわかりませんが、パラメータの出現回数を数えてMBIE-EBによって出現回数のルート分の1相当のボーナスを加えて行動決定するとかいかがでしょうか。応用されてDeepmind社のDQNに使われています。— Katsuki Ohto …