GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

二つ上の続き

 結局駒割の評価値は変でした。

 が、王将周辺の利きはそこそこまともっポイ、王将の移動範囲はちょっと変という訳の分からない結果に。

 それから、「ボーナス付加後の評価値 = ボーナス付加前の評価値 + β * 評価関数全体のボーナス」という感じで、ボーナスを付加する割合をβで調整しているんですが、これが1.0や0.1だと駒割のパラメータもそれ以外のパラメータも変になって、0.01・0.001だと少しマシになっていました。

 こっちは、βが高すぎると勝った局面でのTD誤差が負になって、勝った側のパラメータを軒並みマイナス方向に修正してしまったのが原因でしょう。

 さて、そんじゃぁ対策はどうしようか。

 一つ目、ボーナス付加後の評価値は行動選択時だけ使って、TD誤差の計算にはボーナス付加前の評価値を使う。

 二つ目、ボーナス付加後の評価値を常に使うのを止めて、時々ボーナス付加後の評価値を使う*1

 三つ目、ボーナス付加をあきらめる。

 四つ目、リバーシで練習。

 とりあえず一つ目をやってから四つ目かな。

*1:εグリーディー方策でのランダム行動のかわりにボーナス付加後の評価値を元にした行動を使う