GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2014-05-10から1日間の記事一覧

MCTSのシミュレーション方策の学習

「Improvements to MCTS Simulation Policies in Go」 https://www.wpi.edu/Pubs/E-project/Available/E-project-042914-175427/unrestricted/MCTS_Simulation_Policies_in_Go.pdf

さて

今日からはSoftmax実現確率探索の遷移確率学習を始めるわけですが、当たればR+500というデカい博打です。 学習則がやや複雑なのでエンバグしないか心配ですが、まぁ何とかしましょう。 目標としては土日のうちに学習ルーチンを実装し、来週いっぱいかけて学…

久々にvs ssp(5五将棋モード)

目標探査率を0.1〜0.5にした上で、学習則に温度の逆数の項を追加したバージョン。学習時の探索深さは2+6、対局数は36万。 んで、結果。317-?-94で勝率77.1%、95%信頼区間は72.8〜81.1。 取りあえずこの評価関数パラメータを使い、探索パラメータだけ学習さ…