逆強化学習 - GA将？開発日記～王理のその先へ～

　つーモノがあるらしいです。

　通常の強化学習は、エージェントに報酬関数（と環境）を与えると最適な方策を出力するものです。

　んで、逆強化学習はと言うと、最適な方策を与えると報酬関数を出力してくれるらしい。

　ただ、大抵は「最適な」方策が既知ならそれをそのまま使えば良い訳で、正直応用例がどの程度あるかは不明です。

　が、しかし、コンピュータ将棋には「プロ棋士の棋譜」という（ほぼ）最適な方策があります。

　と言う訳で、「プロ棋士の棋譜→逆強化学習で報酬関数を学習→自己対戦による強化学習」という事が可能かもしれません。

　いきなりコンピュータ将棋にはハードルが高過ぎる気がするので、4x4リバーシあたりで予備実験してからどうするか決めましょうかね。

　…にしても、最近は仕事が忙しくてなかなか開発の時間が取れません。

　おかげで電車の中で論文を漁るのが趣味になりつつありますが、それはまた別の話。

　……Nexus 7、買って正解だったかも。