いまさら方針に悩む
修正しといてなんですが、評価関数の問題に強化学習エージェントの方で対処する、っていう現状の方法にちょっと疑問を持ち始めました。
結局、問題があるのは評価関数の方で、問題点も「パラメータごとの使用頻度が大きく異なる」事って分かってる訳です。
なので、評価関数の方で何とか対処するのが本来のあり方なんじゃないかと考えています。
ただ、何とか対処するとしても
- それなりにキャパシティが大きくて*1
- 全パラメータの使用頻度が同程度
という条件を満たす必要があります。
棚瀬さんが準優勝記に書かれていた様に「全てを利きだけで表現する」というのは一つの案だとは思いますが、他にも何か手は無いか考えてみます。人のアイデアをそのまま使わせて貰うのは何か悔しいですしね。
前に考えていた「駒同士の利きの関係を有効グラフで表す」ってのを何とか応用出来ないか、とも思いますが・・・うーん・・・
*1:私は「全パラメータを適切な値に設定した時の能力が高い」事を「キャパシティが大きい」と呼んでいます。正式には何と言うかは分かりません。