報酬設定ってどうやれば良いんだろう…
とりあえずやりたいのは「駒(金銀桂馬)を敵陣に向かわせて、ちゃんと攻めれる様に学習させたい」って事なんですが、その為の報酬設定に悩む。
以前は報酬の基本値を「勝ったら+1、負けたら-1」にして、それに「金銀桂馬を前に進めたら1回あたりボーナス0.01加算、後ろに引いたら1回あたりボーナス-0.01加算」ってやり方でした。
ただ、それだと「負けてもいいからとりあえず駒を進めとこう」って感じの学習結果になってて、これはちょっとマズイかな、と。
んで、今は「勝ったら+1+ボーナス、負けたら-1-ボーナス」って報酬設定で走らせてます…が、これも何か違う気が。
一応、「駒を進めたけど負けたなら、それは進め方がマズかったから報酬をマイナス方向に振る」って考えでやってるんですけど、な〜んか間違ってる気がしてます。
まぁ、この辺の報酬設定は試行錯誤して決めるしかないんですが、どうしようかなぁ。
「強化学習では、こういう方針で報酬を決めると良いですよ」って論文、どっかに落ちてないかなぁ…