昨夜からの学習速度
引き続き方策勾配法で頑張っています。
で、方策にはソフトマックスを使ってるんですが、それだと「暫定最善手の評価値がxで温度がTだから、評価値yの手の選択確率はz以下だ」と分かります。
そこで、xとTから適切なウィンドウを設定する事で、zが閾値以下になる手は正確な評価値を求めない様にして、高速化を図っています。
んで、昨夜からウィンドウを設定しないバージョン*1と閾値を0.1%に設定したバージョンを並行して走らせてみました。
結果、Core i7 940(2.93GHz)・シングルスレッドで探索は静止探索4手のみだと、ウィンドウ設定無しが24時間あたり1万7千局、ウィンドウ設定ありだと6万7千局で、4倍の高速化に成功しました。
と言っても、まだ全然弱いので、改善の余地アリアリですが。
とりあえず、これをベースにもうちょっと改良してみます。
*1:全ての手の正確な評価値を求める