自己対戦による強化学習を前提とします。
評価関数のパラメータはTDLeaf(λ)等のアルゴリズムで学習出来ますが、αβ法での探索を制御するパラメータ*1は微分が難しい*2ので、どうやって学習させればいいか決めかねていました。
で、以下の様な流れで学習できないかと思ったので、メモとして残しておきます。
- GA*3の遺伝子として数通りのパラメータを用意する。
- 対局毎にどのパラメータを使用するかをUCBで選択する。
- 数局終了後に、各遺伝子を用いた際の勝率をGAの適応度*4として使用して、次世代の個体群*5を生成する。
- 2に戻る。
ま、やるとしても選手権後ですが。それまでは評価関数の学習に集中します。