GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

久々の更新

 開発日記を書くのも久々ですが、とりあえず現状。

 合議の方の乱数のパラメータ調整ですが、正規乱数をパラメータに足すよりも、Dropoutで1割程度のパラメータを強制的に0にした方が強くなる様です。

 という訳で、電王トーナメント・UEC5五将棋大会にはDropoutを使用した合議で臨む予定。

 それから、最終的には

  • 方策勾配法(PGLeaf)
  • ε-Greedy(挙動方策)+Softmax(推定方策)
  • Off-Policy(Importance Sampling)

という構成で学習ルーチンを作成する予定です。

 今日の時点で、TDLeaf(λ)+ε-Greedyは完成していますので*1、明日はOff-Policy PGLeafを実装していきます。

 という訳で、今日は酒呑んで寝ます。

*1:三目並べとリバーシで正しく収束する事を確認済み。5五将棋は現在学習中。