https://kaigi.org/jsai/webprogram/2012/pdf/584.pdf つーモノがあるらしいです。 通常の強化学習は、エージェントに報酬関数(と環境)を与えると最適な方策を出力するものです。 んで、逆強化学習はと言うと、最適な方策を与えると報酬関数を出力してくれ…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。