GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

報酬設定ってどうやれば良いんだろう…

 とりあえずやりたいのは「駒(金銀桂馬)を敵陣に向かわせて、ちゃんと攻めれる様に学習させたい」って事なんですが、その為の報酬設定に悩む。

 以前は報酬の基本値を「勝ったら+1、負けたら-1」にして、それに「金銀桂馬を前に進めたら1回あたりボーナス0.01加算、後ろに引いたら1回あたりボーナス-0.01加算」ってやり方でした。

 ただ、それだと「負けてもいいからとりあえず駒を進めとこう」って感じの学習結果になってて、これはちょっとマズイかな、と。

 んで、今は「勝ったら+1+ボーナス、負けたら-1-ボーナス」って報酬設定で走らせてます…が、これも何か違う気が。

 一応、「駒を進めたけど負けたなら、それは進め方がマズかったから報酬をマイナス方向に振る」って考えでやってるんですけど、な〜んか間違ってる気がしてます。

 まぁ、この辺の報酬設定は試行錯誤して決めるしかないんですが、どうしようかなぁ。

 「強化学習では、こういう方針で報酬を決めると良いですよ」って論文、どっかに落ちてないかなぁ…