方策勾配法+ソフトマックス方策+線形評価関数で、4x4リバーシの先手のみ学習時の最適方策での報酬と実際の報酬の誤差を調べてみました。
実験条件は、10,000局を1セットとして各設定で10セット学習し、その平均値です。
温度と平均誤差の関係は、CSVファイルを誤って上書きしてしまったので、グラフは目標探査率のみ。
大体目標探査率が0.3を超えた辺りから誤差が増加していますが、それ以下だとどれも大差無い感じです。
温度と誤差の関係も大体同じ感じで、一定温度を超えると徐々に誤差が増えていく感じでした。