昨日の補足
id:streakeagle:20080204:1202127283
「パラメータの使用頻度」と書いたのは「学習時にパラメータを使用した頻度」です。局面評価時の頻度ではなく。
それから、ボーナスの計算式はUCB1にこだわるつもりはなくて、別の方法もありだと思います。まぁ、十中八九UCB1になるでしょうが。
id:streakeagle:20080204:1202127283
「パラメータの使用頻度」と書いたのは「学習時にパラメータを使用した頻度」です。局面評価時の頻度ではなく。
それから、ボーナスの計算式はUCB1にこだわるつもりはなくて、別の方法もありだと思います。まぁ、十中八九UCB1になるでしょうが。