合議SR-PGLeafの実装中
とりあえずザックリテストしたんで、一晩アサーション有効で走らせてみます。
合議クライアントの学習法は色々考えられますが、私は16種類の評価関数でリーグ戦をしながら学習していく方式を選びました。
これだと、各クライアントがそれぞれ異なった経験をする事が出来るので、バリエーションの有る評価関数になるのを期待しています。
ただ、デメリットとしてクライアントの重み(信頼度?)を評価関数パラメータと同時に学習するのが不可能というのは有ります。
まぁ、重みに関しては後日、また別の学習法で調整しようと思います。