GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

逆強化学習

 https://kaigi.org/jsai/webprogram/2012/pdf/584.pdf

 つーモノがあるらしいです。

 通常の強化学習は、エージェントに報酬関数(と環境)を与えると最適な方策を出力するものです。

 んで、逆強化学習はと言うと、最適な方策を与えると報酬関数を出力してくれるらしい。

 ただ、大抵は「最適な」方策が既知ならそれをそのまま使えば良い訳で、正直応用例がどの程度あるかは不明です。

 が、しかし、コンピュータ将棋には「プロ棋士棋譜」という(ほぼ)最適な方策があります。

 と言う訳で、「プロ棋士棋譜→逆強化学習で報酬関数を学習→自己対戦による強化学習」という事が可能かもしれません。

 いきなりコンピュータ将棋にはハードルが高過ぎる気がするので、4x4リバーシあたりで予備実験してからどうするか決めましょうかね。

 …にしても、最近は仕事が忙しくてなかなか開発の時間が取れません。

 おかげで電車の中で論文を漁るのが趣味になりつつありますが、それはまた別の話。

 ……Nexus 7、買って正解だったかも。