GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

昨夜からの学習速度

 引き続き方策勾配法で頑張っています。

 で、方策にはソフトマックスを使ってるんですが、それだと「暫定最善手の評価値がxで温度がTだから、評価値yの手の選択確率はz以下だ」と分かります。

 そこで、xとTから適切なウィンドウを設定する事で、zが閾値以下になる手は正確な評価値を求めない様にして、高速化を図っています。

 んで、昨夜からウィンドウを設定しないバージョン*1閾値を0.1%に設定したバージョンを並行して走らせてみました。

 結果、Core i7 940(2.93GHz)・シングルスレッドで探索は静止探索4手のみだと、ウィンドウ設定無しが24時間あたり1万7千局、ウィンドウ設定ありだと6万7千局で、4倍の高速化に成功しました。

 と言っても、まだ全然弱いので、改善の余地アリアリですが。

 とりあえず、これをベースにもうちょっと改良してみます。

*1:全ての手の正確な評価値を求める