GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

UCBとGAを組み合わせた方策による、探索を制御するパラメータの学習

 自己対戦による強化学習を前提とします。

 評価関数のパラメータはTDLeaf(λ)等のアルゴリズムで学習出来ますが、αβ法での探索を制御するパラメータ*1微分が難しい*2ので、どうやって学習させればいいか決めかねていました。

 で、以下の様な流れで学習できないかと思ったので、メモとして残しておきます。

  1. GA*3の遺伝子として数通りのパラメータを用意する。
  2. 対局毎にどのパラメータを使用するかをUCBで選択する。
  3. 数局終了後に、各遺伝子を用いた際の勝率をGAの適応度*4として使用して、次世代の個体群*5を生成する。
  4. 2に戻る。

 ま、やるとしても選手権後ですが。それまでは評価関数の学習に集中します。

*1:例えばFutility Pruningのマージン等

*2:不可能とは断定出来ませんが、少なくとも私には無理

*3:遺伝的アルゴリズム

*4:遺伝子の良し悪しを表す値

*5:遺伝子の集まり