GA将?開発日記~原点回帰~

ネタ勢最強を目指して絶賛開発中。

まだまだまだデータ採取中

 以前の先後で評価関数のインスタンスを分けた場合のグラフに、先手のみ・後手のみ学習のログを追加したものです。

 んで、先手のみ学習の結果が異常に良いのが気になりますね。

 一旦勝率上がってから下がるのは、ベースラインの設定をしていないのが原因かもしれないので、現在はそこを修正したバージョンを走らせています。

 どういう事かというと、「ssp相手だと大体これ位の報酬が得られる」という値がベースラインで、パラメータ修正時は「報酬-ベースライン」を基準にパラメータ修正量を決めるのが良いらしいです。

 つまり、勝率9割の相手なら「報酬が+1」と「報酬が-1」はパラメータ修正量の絶対値が異なるはずです。(前者の方が、パラメータ修正量が小さくなるべき。)

 ただ、同じ設定で何回か走らせても、その都度結果が異なるので、一回の結果だけから判断するのも難しそうな感じです。

 …困った。