2014-01-21から1日間の記事一覧

逆強化学習

開発日記

https://kaigi.org/jsai/webprogram/2012/pdf/584.pdf つーモノがあるらしいです。通常の強化学習は、エージェントに報酬関数（と環境）を与えると最適な方策を出力するものです。んで、逆強化学習はと言うと、最適な方策を与えると報酬関数を出力してくれ…