パラメータの調整中
学習率が大体決まったので、今度は温度の設定をもう一度やり直し。その後は王手将棋で先後入れ替えて、ちゃんと後手必勝になるかのテストの予定。
んで、評価関数を非線形にするのはこの論文のやり方を真似して、シグモイド関数を使ってやってます。
非線形にした理由ですが、単に評価関数の出力する評価値が±1の範囲に収まって欲しいから、という事だけです。別に線形であろうが非線形であろうがそれはどうでもよくて、変な値が出力されると困る、と。
まぁ、学習しないなら評価値が多少変になっても気にしなければいいかもしれませんが、強化学習の場合だと、変な評価値につられてTD誤差も変な値になってしまうので、放置するとよくないかと。
んで、今のところちゃんと動いているみたいですし、当面は非線形のままで行きます。