評価関数パラメータの分散って求めれないもんかなぁ…

　個々のパラメータの分散が計算出来れば、それらを足し合わせて評価値の分散が求まるはず。で、自己対戦での対局時に「平均評価値＋分散」が高い手を選べば、対局を重ねる毎に分散が小さくなっていって（＝最適な値である確率が高くなっていって）良い感じに学習してくれるんじゃないかと。

　ベイズ線形回帰では各パラメータの「自信度」みたいな値が出てくるけど、分散の推定を突き詰めてくとベイズになるのかな？

　あ、平均値＋分散を使うって言えば、UCB1とかUCTもそうか。そっち方面でちょっと調べてみたら、何か分かるかも。

　もし実現出来たら、「居飛車の価値はほぼ確実に＋10位だけど、中飛車だと平均＋5で分散が10。だからちょっと中飛車を試してみよう。」って感じの学習が出来る…ハズ。

　まぁでも、私に思い付くならとっくに先行事例があるはずだし、それを探した方が効率良いか。とりあえずは、ちょっと論文探してみよう。

GA将？開発日記～王理のその先へ～