今までは学習率固定だったんですが、これを可変にしてみました。ちょっとでも収束速くならないかと思って。
んで、どうやって下げてけば良いか不明なんで、とりあえず初期値を0.1から始めて、20万局かけて0.001まで下げ、その後は0.001固定ってやってみました。
これである程度うまく行きそうなら、その後は正則化(正規化?)を入れてみようと思います。
正則化の方も正則化係数の調整が必要なんですが、学習用マシンが8並列なんで、8通りのパラメータで並行して走らせて*1、ベストのやつを採用しようと思います。