UCBとGAを組み合わせた方策による、探索を制御するパラメータの学習

　自己対戦による強化学習を前提とします。

　評価関数のパラメータはTDLeaf(λ)等のアルゴリズムで学習出来ますが、αβ法での探索を制御するパラメータ*1は微分が難しい*2ので、どうやって学習させればいいか決めかねていました。

　で、以下の様な流れで学習できないかと思ったので、メモとして残しておきます。

　ま、やるとしても選手権後ですが。それまでは評価関数の学習に集中します。

*1:例えばFutility Pruningのマージン等

*2:不可能とは断定出来ませんが、少なくとも私には無理

*4:遺伝子の良し悪しを表す値

*5:遺伝子の集まり

GA将？開発日記～王理のその先へ～