GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

最後の悪あがき

 GPW杯に向けて、最後の悪あがきをしています。

 やってる事は単純で、最小分散ベースライン*1をやめて、平均報酬をベースラインとする、という事。

 幾つか実験してみた限りだと、最小分散ベースラインより大幅に劣る事は無さそうですし、場合によっては良くなる事もありました。

 という訳でとりあえず5五将棋を学習させて、一晩で上手く行ったら今度は本将棋もそれで学習予定。

*1:方策勾配法で任意に決めれる定数の、理論上最適な値