評価関数パラメータの分散って求めれないもんかなぁ…
個々のパラメータの分散が計算出来れば、それらを足し合わせて評価値の分散が求まるはず。で、自己対戦での対局時に「平均評価値+分散」が高い手を選べば、対局を重ねる毎に分散が小さくなっていって(=最適な値である確率が高くなっていって)良い感じに学習してくれるんじゃないかと。
ベイズ線形回帰では各パラメータの「自信度」みたいな値が出てくるけど、分散の推定を突き詰めてくとベイズになるのかな?
あ、平均値+分散を使うって言えば、UCB1とかUCTもそうか。そっち方面でちょっと調べてみたら、何か分かるかも。
もし実現出来たら、「居飛車の価値はほぼ確実に+10位だけど、中飛車だと平均+5で分散が10。だからちょっと中飛車を試してみよう。」って感じの学習が出来る…ハズ。
まぁでも、私に思い付くならとっくに先行事例があるはずだし、それを探した方が効率良いか。とりあえずは、ちょっと論文探してみよう。