GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

Actor-Criticを用いた探索ルーチンの学習

 強化学習にも色々あって、TD法の一種にActor-Critic手法というのがあります。

 これは、通常のTD法(Sarsa)とは違い、方策*1と行動価値関数*2の独立性が高い手法です。

 で、Actor-Criticと遺伝的プログラミングを合わせれば、探索ルーチンの学習が出来ないかなぁ、と。

 まぁ、誰でも考え付くようなアイデアではあるのですが、とりあえずメモとして。

 ただ、自分でコーディングしたαβより強くないと無意味ですし、そもそも学習に時間がかかりすぎるんじゃないかとも思うので、何か対策を考えないと実用には程遠いでしょう。

*1:行動を選択する部分

*2:コンピュータ将棋の評価関数みたいなもの