Actor-Criticを用いた探索ルーチンの学習
強化学習にも色々あって、TD法の一種にActor-Critic手法というのがあります。
これは、通常のTD法(Sarsa)とは違い、方策*1と行動価値関数*2の独立性が高い手法です。
で、Actor-Criticと遺伝的プログラミングを合わせれば、探索ルーチンの学習が出来ないかなぁ、と。
まぁ、誰でも考え付くようなアイデアではあるのですが、とりあえずメモとして。
ただ、自分でコーディングしたαβより強くないと無意味ですし、そもそも学習に時間がかかりすぎるんじゃないかとも思うので、何か対策を考えないと実用には程遠いでしょう。