昨夜からの学習速度 - GA将？開発日記～王理のその先へ～

　引き続き方策勾配法で頑張っています。

　で、方策にはソフトマックスを使ってるんですが、それだと「暫定最善手の評価値がxで温度がTだから、評価値yの手の選択確率はz以下だ」と分かります。

　そこで、xとTから適切なウィンドウを設定する事で、zが閾値以下になる手は正確な評価値を求めない様にして、高速化を図っています。

　んで、昨夜からウィンドウを設定しないバージョン*1と閾値を0.1%に設定したバージョンを並行して走らせてみました。

　結果、Core i7 940（2.93GHz）・シングルスレッドで探索は静止探索4手のみだと、ウィンドウ設定無しが24時間あたり1万7千局、ウィンドウ設定ありだと6万7千局で、4倍の高速化に成功しました。

　と言っても、まだ全然弱いので、改善の余地アリアリですが。

　とりあえず、これをベースにもうちょっと改良してみます。

*1:全ての手の正確な評価値を求める