2015-01-27 改良版の探索ルーチン 開発日記 本将棋で、24時間あたり80〜90万局ペースで学習が進んでいます。速い。 …けど、読み筋とか評価値とかがおかしいらしく、報酬予測値の誤差がかなり大きめです。 これは、早急に修正しないと。