2012-11-05 最後の悪あがき 開発日記 GPW杯に向けて、最後の悪あがきをしています。 やってる事は単純で、最小分散ベースライン*1をやめて、平均報酬をベースラインとする、という事。 幾つか実験してみた限りだと、最小分散ベースラインより大幅に劣る事は無さそうですし、場合によっては良くなる事もありました。 という訳でとりあえず5五将棋を学習させて、一晩で上手く行ったら今度は本将棋もそれで学習予定。 *1:方策勾配法で任意に決めれる定数の、理論上最適な値