2014-12-03 探索パラメータ学習は一休み 開発日記 どうも、評価関数が不安定でイテレーションごとに激しく評価値・PVが変動しているのが良くないみたいです。そのせいで、枝刈りが有効に機能していない、と。 という訳で、Bonanza方式のペナルティ項を導入して学習にリトライ。 コード自体は前に書いてあったものをほぼそのまま使っていますが、昨夜のうちにバグを2つほど潰しました。 現在は50万局で学習打ち切りとして、ペナルティの大きさを調整中。多分数日はかかるので、その間は他の部分の開発を進めていきます。