二つ上の続き - GA将？開発日記～王理のその先へ～

　結局駒割の評価値は変でした。

　が、王将周辺の利きはそこそこまともっポイ、王将の移動範囲はちょっと変という訳の分からない結果に。

　それから、「ボーナス付加後の評価値 = ボーナス付加前の評価値 + β * 評価関数全体のボーナス」という感じで、ボーナスを付加する割合をβで調整しているんですが、これが1.0や0.1だと駒割のパラメータもそれ以外のパラメータも変になって、0.01・0.001だと少しマシになっていました。

　こっちは、βが高すぎると勝った局面でのTD誤差が負になって、勝った側のパラメータを軒並みマイナス方向に修正してしまったのが原因でしょう。

　さて、そんじゃぁ対策はどうしようか。

　一つ目、ボーナス付加後の評価値は行動選択時だけ使って、TD誤差の計算にはボーナス付加前の評価値を使う。

　二つ目、ボーナス付加後の評価値を常に使うのを止めて、時々ボーナス付加後の評価値を使う*1。

　三つ目、ボーナス付加をあきらめる。

　四つ目、リバーシで練習。

　とりあえず一つ目をやってから四つ目かな。

*1:εグリーディー方策でのランダム行動のかわりにボーナス付加後の評価値を元にした行動を使う