GAと強化学習のハイブリッド構成ってのもやってみようかな

　http://www.logos.ic.i.u-tokyo.ac.jp/~yano/PDF/GI21_dist.pdfに書かれてますが、GAと強化学習を交互に実行していくって手法があるらしいです。

　具体的にはGAで遺伝子（この場合は評価関数のパラメータベクトル）を複数生成し、それを元に強化学習でパラメータ調整。その後、再度GAに戻るって流れです。

　GAは「種の進化」を、強化学習は「一個体の生涯での学習」を模したものと考えれば、これは割と理にかなったアプローチではないかと。

　上記論文中でも言及されてますが、GAは広い範囲での探索に強く、強化学習は逆に狭い範囲での探索に強いので、双方の利点を併せ持つ事が出来れば、結構良い学習ルーチンになるんじゃないかと。

　あと、GA将!!!!!の名前通りGAを使う事も出来ますし。

　という訳で、もうしばらくは方策勾配法を頑張ってみて*1、それからこの手法をやってみようかと考えています。

*1:せめてsspに勝率6割位は行きたい

GA将？開発日記～王理のその先へ～