まだまだまだデータ採取中 - GA将？開発日記～王理のその先へ～

　以前の先後で評価関数のインスタンスを分けた場合のグラフに、先手のみ・後手のみ学習のログを追加したものです。

　んで、先手のみ学習の結果が異常に良いのが気になりますね。

　一旦勝率上がってから下がるのは、ベースラインの設定をしていないのが原因かもしれないので、現在はそこを修正したバージョンを走らせています。

　どういう事かというと、「ssp相手だと大体これ位の報酬が得られる」という値がベースラインで、パラメータ修正時は「報酬-ベースライン」を基準にパラメータ修正量を決めるのが良いらしいです。

　つまり、勝率9割の相手なら「報酬が+1」と「報酬が-1」はパラメータ修正量の絶対値が異なるはずです。（前者の方が、パラメータ修正量が小さくなるべき。）

　ただ、同じ設定で何回か走らせても、その都度結果が異なるので、一回の結果だけから判断するのも難しそうな感じです。

　…困った。