二つ上の続き
結局駒割の評価値は変でした。
が、王将周辺の利きはそこそこまともっポイ、王将の移動範囲はちょっと変という訳の分からない結果に。
それから、「ボーナス付加後の評価値 = ボーナス付加前の評価値 + β * 評価関数全体のボーナス」という感じで、ボーナスを付加する割合をβで調整しているんですが、これが1.0や0.1だと駒割のパラメータもそれ以外のパラメータも変になって、0.01・0.001だと少しマシになっていました。
こっちは、βが高すぎると勝った局面でのTD誤差が負になって、勝った側のパラメータを軒並みマイナス方向に修正してしまったのが原因でしょう。
さて、そんじゃぁ対策はどうしようか。
一つ目、ボーナス付加後の評価値は行動選択時だけ使って、TD誤差の計算にはボーナス付加前の評価値を使う。
二つ目、ボーナス付加後の評価値を常に使うのを止めて、時々ボーナス付加後の評価値を使う*1。
三つ目、ボーナス付加をあきらめる。
四つ目、リバーシで練習。
とりあえず一つ目をやってから四つ目かな。
*1:εグリーディー方策でのランダム行動のかわりにボーナス付加後の評価値を元にした行動を使う