順調に遅れてます
体調不良を良い訳にしてグダグダと進行中。
んで、ソフトマックス方策は一時置いといて、勝率の検定とかのやり方を勉強&サンプルコードを書いたりしてました。
現状では、自作のコードで計算した95%信頼区間がakiさんの勝率計算機とかここのサイト*1とかの数値と一致したんで、多分それなりにちゃんと計算出来てるんでしょう。多少怪しいコードはありますが。
最終的には一日一回評価関数のパラメータファイルを更新しつつ全自動で他のソフト(とりあえずはssp)と連続対戦して、勝率の信頼区間とかを表示させようかと考えてます。強くなったかどうかってのは一番信用出来る指標なので。
という訳で検定関連はこれで一段落で、そろそろ強化学習の実装に戻ります。