GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

局面評価時のパラメータ使用頻度の利用

現状のボーナスの付加は「学習時に使用した(特徴が非0の)頻度の低いパラメータが出現する局面に向かって行動選択する」という方式ですが、これだと局面評価時の使用頻度を無視しているので、ちょっともったいないです。

という訳で、評価時の情報もなんとか使用しようと検討中。

…なんですが、詳しい使用方法はまだ思い付いてないです。

  • 学習時の使用頻度が低く評価時の使用頻度が高いパラメータは、"真の値"からかけ離れている可能性がある
  • 評価時の使用頻度に対して学習時の使用頻度が高いパラメータは、多分"真の値"に近い

って感じの予想はしてるんですが、これが本当かどうかも怪しいです。

まぁ、今週末は講演会への移動時間が結構あるので、その時にでも検討します。