修正完了
とりあえず10分ほど動かしてもエラーは出てないんですが、長時間動かすと変になる可能性もあるので、今日はこのまま動かしてみます。
それから、オプティミスティック初期値を設定した強化学習で学習率を1.0にしたやつを開発用マシンで動かしてたんですが、パラメータを見てみるとどうも変です。
あ、いや、学習率が高すぎなんで変になるのは当然なんですが、駒の価値が軒並みマイナスになってるのに相対位置や絶対位置は初期値周辺のままでした。
学習が変な方向に進むのならまだ理解出来ますが、初期値からほとんど変わらないというのはいくらなんでも変です。
という訳でやっぱり相対位置・絶対位置の評価が怪しげなので、この辺をもうちょっと詳しく調べてみます。