2008-06-09 上の補足 開発日記 「報酬は勝ったら1、負けたら-1、一手指して決着がつかなかったら-0.01」と書きましたが、最後の-0.01はあくまで実験用という位置付けです。 本番の学習でそうやって報酬を与えると、「100手粘って結局負ける」よりも「王将が特攻して1手で負ける」方が報酬が大きくなってしまうので、かなり問題があると考えています。 今はほぼ先手必勝の条件で、かつ、後手は変な風に学習してしまっても問題が無いのでこうしています。