2007-08-04から1日間の記事一覧
強化学習にも色々あって、TD法の一種にActor-Critic手法というのがあります。 これは、通常のTD法(Sarsa)とは違い、方策*1と行動価値関数*2の独立性が高い手法です。 で、Actor-Criticと遺伝的プログラミングを合わせれば、探索ルーチンの学習が出来ないか…
ショボーン (´・ω・`)
強化学習にも色々あって、TD法の一種にActor-Critic手法というのがあります。 これは、通常のTD法(Sarsa)とは違い、方策*1と行動価値関数*2の独立性が高い手法です。 で、Actor-Criticと遺伝的プログラミングを合わせれば、探索ルーチンの学習が出来ないか…
ショボーン (´・ω・`)