2010-10-27 TDLeaf(λ)で強くならない… 開発日記 学習経過 前に5五将棋をTDLeaf(λ)で学習させた時は、確か対sspで勝率8割位まで行ったはずが、学習させ直すとなかなか強くなりません。 ただ、ようやく5割程度にまで伸びたので、これをベースに方策勾配法で学習させる事にしました。 探索は全幅0手だとすぐ収束しちゃうみたいなんで、全幅1手でやってみます。 今の所24時間あたり100万局ペースで行ってるんで、そこそこの速度は出ています。 後は元のパラメータより強くなるかですが、こればっかりはやってみないと分かんないんで、明日の結果に期待です。