鬼が笑う来年の話
まず、強化学習でのパラメータ調整が上手く行く事前提で。
合議とか面白そうだからやってみたいなぁ。
と言っても、単に乱数加えてやるだけの合議じゃ後追いで面白くないんで、強化学習のメリットを活かす方向で。
例えば、今の評価項目から
- 二駒の相対位置評価
- 二駒の絶対位置評価
- 王将の移動可能範囲の評価
の3つを選び、こいつらの有効・無効の組み合わせを作るだけで8通りの評価関数が出来る訳ですよ。
んで、8つの評価関数でそれぞれ個別に学習し、対局時は多数決で指し手を選ぶとかするとどうかな〜、と。
そこそこの精度だけど速い評価関数と、遅いけど精度が良い評価関数と、それらの間の性質のやつで合議すれば、単純に同じ評価関数+乱数で合議するよりは、性能向上率が高くならないかと期待しているんですが。
それから、この方式のメリットは、評価項目数nに対して2^n並列までは楽に実装可能って事なんですよ。
GA将!!!!はn=6なので、64並列までなら今のままで対応可能。Larrabeeが急に出たりしない限りは何とかなります。Sandy Bridgeですら8コア16スレッドが1ソケットの上限みたいですしね。
あー、でも、合議するとなると理論的背景をもうちょっと勉強する必要があるか。アンサンブル学習関連の和書ってなんかあったっけか? 今度アマゾンで探してみよう。