2012-09-13から1日間の記事一覧
一昨日書いた目標探査率をランダムウォークさせる学習ですが、ようやく適切なメタパラメータ*1が決まったんで、一晩連続対局させてみました。 学習条件は方策勾配法・全幅1手+静止探索4手で線形の評価関数を用いるものです。 んで、約24万局学習後のパラメ…
一昨日書いた目標探査率をランダムウォークさせる学習ですが、ようやく適切なメタパラメータ*1が決まったんで、一晩連続対局させてみました。 学習条件は方策勾配法・全幅1手+静止探索4手で線形の評価関数を用いるものです。 んで、約24万局学習後のパラメ…