新バージョンのコードは、もともと三目もリバーシも動く様になってたんですが、将棋用に色々修正した*1結果、三目・リバーシ用のモードではコンパイル不可能になっていました。
そこで、今日は将棋固有の処理をちゃんと切り分けたり*2して、三目・リバーシでも動く様に修正。
実際に動かしてみると割と面白い事が分かったりして、例えばソフトマックス方策の温度の初期値は思い切って高め*3にすると、そっちのほうが学習の収束が速かったりしました。
という訳で、旧バージョンの将棋でも温度の初期値を高めにして、学習用マシンに投入。ちょっとは強くなってくれると嬉しいです。