GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

上の続き

 酔っ払ってるんで細かい間違いはあるかと思いますが、とりあえずメモ。

 今仮に、平手初期局面の先手の勝率が0.5とします。

 で、対局すると先手が勝って勝率1.0になりました。

 そうすると、初期局面では1bitあった「勝敗に関する情報量」が終局図では0bitになります。

 情報が減ったって事は、その間に情報量が減る様な「何か」あったという事ですので、その「何か」を認識出来れば学習に活用出来るはず。

 んで、現状のGA将では、評価値とシグモイド関数を使って、ある程度正確に「任意の局面での勝率」を計算出来ています。

 つまり、初期局面から終局までの間の任意の局面で、「この局面での情報量はx bit」と計算出来る訳で…

 で…そっから先はどうすればいいんだろう。

 例えば、現状のSR-PGLeafでは「勝率の時間差分*1」を報酬としていますが、これを「情報量の時間差分」とすると、ちょっと違った学習結果になります。

 ついでに、「勝率0.9から勝率0.95への変化」より「勝率0.5から勝率0.55への変化」の方が、与える報酬は大きくなる…はず。

 ただ、こうすると「勝率0.3から勝率0.35への変化」はマイナスの報酬になっちゃうんで、これはちとマズイですね。

 う〜ん、もうちょっと検討が必要ですね。

*1:現局面の予測勝率と、そこから先の局面での予測勝率の差