方策πのエントロピーにもとづく内発的報酬
が、もうちょっとで定式化出来そうな気がする。
方針
計算式(案)
rb(s,s′)が局面sからs'へ遷移した際の内発的報酬、H(s)は局面sのエントロピー。
案1:単純に差分を取る。
rb(st,st+1)=H(st+1)−H(st)
案2:比率を取る。
rb(st,st+1)=H(st+1)H(st)
使い方
局面stからst+1へ遷移した際に、上記rb(st,st+1)を即時与える。
が、もうちょっとで定式化出来そうな気がする。
rb(s,s′)が局面sからs'へ遷移した際の内発的報酬、H(s)は局面sのエントロピー。
rb(st,st+1)=H(st+1)−H(st)
rb(st,st+1)=H(st+1)H(st)
局面stからst+1へ遷移した際に、上記rb(st,st+1)を即時与える。