逆強化学習
https://kaigi.org/jsai/webprogram/2012/pdf/584.pdf
つーモノがあるらしいです。
通常の強化学習は、エージェントに報酬関数(と環境)を与えると最適な方策を出力するものです。
んで、逆強化学習はと言うと、最適な方策を与えると報酬関数を出力してくれるらしい。
ただ、大抵は「最適な」方策が既知ならそれをそのまま使えば良い訳で、正直応用例がどの程度あるかは不明です。
が、しかし、コンピュータ将棋には「プロ棋士の棋譜」という(ほぼ)最適な方策があります。
と言う訳で、「プロ棋士の棋譜→逆強化学習で報酬関数を学習→自己対戦による強化学習」という事が可能かもしれません。
いきなりコンピュータ将棋にはハードルが高過ぎる気がするので、4x4リバーシあたりで予備実験してからどうするか決めましょうかね。
…にしても、最近は仕事が忙しくてなかなか開発の時間が取れません。
おかげで電車の中で論文を漁るのが趣味になりつつありますが、それはまた別の話。
……Nexus 7、買って正解だったかも。