新バージョンを少し修正
今日の変更点は二つ。
- 一昨日の旧バージョンへの修正を、新バージョンにも反映
- ソフトマックス方策での温度自動調整の方法を修正
二点目は、もともとは探査率*1の実際の値と目標値の関係を見て調整していたのを、探査回数ベースに変更。
三目並べやリバーシだと一局の平均手数が短いので探査率を高めにしないといけなかったのですが、よくよく考えてみると三目・リバーシ・将棋のいずれも「一局に1〜2回探査する位の探査率」を目標値にするのがベストらしいので、それならいっその事探査回数の目標値を設定した方が楽だ、と。これで、三目・リバーシ・将棋で目標値の設定が共通になりましたし、コードも多少シンプルになったんで万事オーライです。
さて、ぼちぼち学習は形になってきたので、ここらでいっちょUSI対応して対局出来る様にしますか。実際に指してる所を見れないと分からない問題点とかもあるでしょうし、見れれば面白いし。
*1:最善手以外を指した割合