Actor-Criticを用いた探索ルーチンの学習 - GA将？開発日記～王理のその先へ～

　強化学習にも色々あって、TD法の一種にActor-Critic手法というのがあります。

　これは、通常のTD法（Sarsa）とは違い、方策*1と行動価値関数*2の独立性が高い手法です。

　で、Actor-Criticと遺伝的プログラミングを合わせれば、探索ルーチンの学習が出来ないかなぁ、と。

　まぁ、誰でも考え付くようなアイデアではあるのですが、とりあえずメモとして。

　ただ、自分でコーディングしたαβより強くないと無意味ですし、そもそも学習に時間がかかりすぎるんじゃないかとも思うので、何か対策を考えないと実用には程遠いでしょう。

*1:行動を選択する部分

*2:コンピュータ将棋の評価関数みたいなもの