GAと強化学習のハイブリッド構成ってのもやってみようかな
http://www.logos.ic.i.u-tokyo.ac.jp/~yano/PDF/GI21_dist.pdfに書かれてますが、GAと強化学習を交互に実行していくって手法があるらしいです。
具体的にはGAで遺伝子(この場合は評価関数のパラメータベクトル)を複数生成し、それを元に強化学習でパラメータ調整。その後、再度GAに戻るって流れです。
GAは「種の進化」を、強化学習は「一個体の生涯での学習」を模したものと考えれば、これは割と理にかなったアプローチではないかと。
上記論文中でも言及されてますが、GAは広い範囲での探索に強く、強化学習は逆に狭い範囲での探索に強いので、双方の利点を併せ持つ事が出来れば、結構良い学習ルーチンになるんじゃないかと。
あと、GA将!!!!!の名前通りGAを使う事も出来ますし。
という訳で、もうしばらくは方策勾配法を頑張ってみて*1、それからこの手法をやってみようかと考えています。