GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

評価関数パラメータの分散って求めれないもんかなぁ…

 個々のパラメータの分散が計算出来れば、それらを足し合わせて評価値の分散が求まるはず。で、自己対戦での対局時に「平均評価値+分散」が高い手を選べば、対局を重ねる毎に分散が小さくなっていって(=最適な値である確率が高くなっていって)良い感じに学習してくれるんじゃないかと。

 ベイズ線形回帰では各パラメータの「自信度」みたいな値が出てくるけど、分散の推定を突き詰めてくとベイズになるのかな?

 あ、平均値+分散を使うって言えば、UCB1とかUCTもそうか。そっち方面でちょっと調べてみたら、何か分かるかも。

 もし実現出来たら、「居飛車の価値はほぼ確実に+10位だけど、中飛車だと平均+5で分散が10。だからちょっと中飛車を試してみよう。」って感じの学習が出来る…ハズ。

 まぁでも、私に思い付くならとっくに先行事例があるはずだし、それを探した方が効率良いか。とりあえずは、ちょっと論文探してみよう。