2014-05-10から1日間の記事一覧
「Improvements to MCTS Simulation Policies in Go」 https://www.wpi.edu/Pubs/E-project/Available/E-project-042914-175427/unrestricted/MCTS_Simulation_Policies_in_Go.pdf
今日からはSoftmax実現確率探索の遷移確率学習を始めるわけですが、当たればR+500というデカい博打です。 学習則がやや複雑なのでエンバグしないか心配ですが、まぁ何とかしましょう。 目標としては土日のうちに学習ルーチンを実装し、来週いっぱいかけて学…
目標探査率を0.1〜0.5にした上で、学習則に温度の逆数の項を追加したバージョン。学習時の探索深さは2+6、対局数は36万。 んで、結果。317-?-94で勝率77.1%、95%信頼区間は72.8〜81.1。 取りあえずこの評価関数パラメータを使い、探索パラメータだけ学習さ…