GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

GAと強化学習のハイブリッド構成ってのもやってみようかな

 http://www.logos.ic.i.u-tokyo.ac.jp/~yano/PDF/GI21_dist.pdfに書かれてますが、GAと強化学習を交互に実行していくって手法があるらしいです。

 具体的にはGAで遺伝子(この場合は評価関数のパラメータベクトル)を複数生成し、それを元に強化学習でパラメータ調整。その後、再度GAに戻るって流れです。

 GAは「種の進化」を、強化学習は「一個体の生涯での学習」を模したものと考えれば、これは割と理にかなったアプローチではないかと。

 上記論文中でも言及されてますが、GAは広い範囲での探索に強く、強化学習は逆に狭い範囲での探索に強いので、双方の利点を併せ持つ事が出来れば、結構良い学習ルーチンになるんじゃないかと。

 あと、GA将!!!!!の名前通りGAを使う事も出来ますし。

 という訳で、もうしばらくは方策勾配法を頑張ってみて*1、それからこの手法をやってみようかと考えています。

*1:せめてsspに勝率6割位は行きたい