4x4のリバーシを関数近似あり・探索無しで学習させてみたんですが、変な現象発見。先後両方学習させるとちゃんと先手8石負けになるんですが、片方のプレイヤーだけ学習させると結果が変です。
具体的には、先手だけ学習すると双方最善を尽くすと引き分けって結果になりますが、学習時の平均石差は先手6石勝ち前後です。ちなみに後手だけ学習だとそれぞれ-11、-12位です。
ここまでかけ離れてるのは変なので、どっかにバグがあるはず。と言うか、あってくれ。でないと詰む。
学習条件は方策勾配法+ソフトマックス方策、温度可変で目標探査率0.05。