悩ましい二択
評価関数パラメータに関しては、現在学習用マシンで走らせている最中です。
これが収束するのはおそらく4月に入ってからなので、それまでの間に何か別の事をしようかな、と検討中。
んで、やりたい事は「探索パラメータの学習」と決まっているのですが、選択肢が二つあってどっちにしようか悩んでます。
一つはGA*1を使って、全幅(前向き枝刈り無し)との一致率をある程度確保しつつ高速化させる、というもの。
もう一つは、強化学習の一手法であるPGPE*2を使って、自己対局での勝率が上がる様にパラメータ調整をする、というもの。
「今年のGA将はGA使ってます!」と言いたい気持ちもあるし、後者の方が強くなりそうな気もするし…
まぁ、両方やってみて強くなった方を採用、って手もありますね。
…「両方失敗しました」になるとガックリなんで、ちゃんと検討してから実装する事にします。