よくわからん
評価関数と探索ルーチンの組み合わせを色々変えてみたんですが、上手く行ったり行かなかったりで正直さっぱりです。
- テーブル形式評価関数(初期値0、学習率0.1)+αβ1手 → 失敗(学習が遅いだけ?)
- テーブル形式評価関数(初期値0、学習率0.5)+αβ1手 → 成功
- テーブル形式評価関数(オプティミスティック初期値*1、学習率0.1)+αβ1手 → 成功
- 線形評価関数+αβ3〜5手 → 大体成功
αβ5手だと中盤以降は決着がつくまで読み切れる事を考慮すると、線形評価関数の結果はあんまり役に立つ情報ではないですね。
ん〜、もうちょっとちゃんとログを見て、おかしな部分がないか調べてみます。それがOKなら次に進みましょう。
*1:「楽観的な」初期値を設定する事で学習速度を上げる手法