根本的なところで悩んでます
今は王手将棋・後手は端の駒から順に動かすって条件でパラメータ調整をして、その値を本将棋でも使ってます。
が、どうもこれが王手将棋の条件に特化した値になってるんじゃないかと思って、代替案で悩んでます。
結局、パラメータの善し悪しを見る為にはある程度簡単な条件でなければならないんですが、それだと本将棋の学習と条件が違いすぎて値が流用出来ないっていう、根本的に間違った事をしている可能性があります。
ただ、他に良い案がある訳でもなく、とりあえずは王手将棋で調整していますが。
本音を言うと自動調整したいんですが、メタ強化学習は保留中ですし他に良い案もないし。
残る選択肢は数通りのパラメータで同じ時間だけ本将棋の学習をさせ、学習結果の強さでパラメータを決める、とかって位ですね。
ただ、それは時間がかかる&正確に善し悪しが分かるか不安ってのが…
どーしよっかなぁ。メタ強化学習をなんとかするしかないのかなぁ。