どうにも行き詰まってるんで
遺伝的アルゴリズム+強化学習での評価関数パラメータの学習をやってみようかな。
前も書いた気がしますが、GAは種の進化を・強化学習は個体の成長をシミュレートすると考えると、この二つを組み合わせて学習させるのは自然な考えな気がします。
それから、GAで上手くメタパラメータを調整してやれば、局所最適解にハマらずに大域的な探索が可能です。これは嬉しい。
つー訳で、後は計算量の問題だけ(GAも強化学習もひたすら時間が掛かる)なんですが、まぁそれはαβ探索を浅くするとかして対応しましょう。
あ、そうだ。GAじゃなくて免疫アルゴリズム(IA)って選択肢もあったっけ。そっちもちと調べて、使えそうならそれを採用って事にしますか。