選手権までにやりたい事
- 評価関数のテスト&デバッグ
- 探索パラメータの学習
まず、評価関数のテストには桜丸@紅莉鳥栖使いたいさん提案の「レベルアップ判定」を使わせてもらっています。
https://twitter.com/sakuramaru7777/status/673435935850127360
私の実装では、100局に1回レベルアップの判定をしていますが、割と学習の進み具合が把握しやすいので非常に便利です。
んで、現在は評価項目を色々変えつつレベルアップの具合をプロット中。今週中には一通りのデータが出揃うと思います。
それから、それなりの評価関数パラメータが出来たら、今度は探索パラメータを学習させてみたいですね。
具体的には、遺伝的アルゴリズム*1での学習にリトライ(多分2回目か3回目)します。
前回は遺伝子の値をそのまま探索パラメータにしていましたが、ちょっとした改良を思い付いたのでそれを使えないかやってみる予定です。
後はSR-PGLeafにリトライしたいですが、それは上の2つが成功したらですね。