久々の更新
開発日記を書くのも久々ですが、とりあえず現状。
合議の方の乱数のパラメータ調整ですが、正規乱数をパラメータに足すよりも、Dropoutで1割程度のパラメータを強制的に0にした方が強くなる様です。
という訳で、電王トーナメント・UEC杯5五将棋大会にはDropoutを使用した合議で臨む予定。
それから、最終的には
- 方策勾配法(PGLeaf)
- ε-Greedy(挙動方策)+Softmax(推定方策)
- Off-Policy(Importance Sampling)
という構成で学習ルーチンを作成する予定です。
今日の時点で、TDLeaf(λ)+ε-Greedyは完成していますので*1、明日はOff-Policy PGLeafを実装していきます。
という訳で、今日は酒呑んで寝ます。