先後対称の評価関数に戻してリトライ
報酬の与え方を少し変える(一手指して勝てなかった時に与えるマイナスの報酬を、先後非対称の場合より絶対値を大きくする)のと温度を少し上げるのが効果的ッポイです。
とりあえず数通りのパラメータで一晩動かしてみて、上手くいったら次に行きます。
現在は「後手玉に王手したら先手の勝ち。後手は1筋の上にある駒から順番に動かす。」という条件ですが、次は後手をランダム指しにして、それからランダム指し+詰んだら勝ちに進む予定。
報酬の与え方を少し変える(一手指して勝てなかった時に与えるマイナスの報酬を、先後非対称の場合より絶対値を大きくする)のと温度を少し上げるのが効果的ッポイです。
とりあえず数通りのパラメータで一晩動かしてみて、上手くいったら次に行きます。
現在は「後手玉に王手したら先手の勝ち。後手は1筋の上にある駒から順番に動かす。」という条件ですが、次は後手をランダム指しにして、それからランダム指し+詰んだら勝ちに進む予定。