えー、色々やってたら価値関数を両方共テーブル形式にしてもNGになりました。
いえ、原因は分かってるんで、トラブルとかそう言う事では無いですが。
原因つーのが探索ルーチンなんですが、今までは三目並べの場合は一手読みだけするルーチンを使ってました。
で、その中で「一手指した後に決着がついていたら、勝ち OR 負けの評価値を返す」って処理を入れてました。
んでもって、その処理を外すとNGになったと言う訳です。
言い換えると、今までは「たまたま上手く行っていた」だけで、学習の根本的な部分でまだどっかバグが有るはずです。
…さて、今日中にデバッグ…は、無理か…