2012-06-12 久々に進展 開発日記 合議+方策勾配法ですが、ソフトマックス方策の温度自動調整で1箇所ミスってて、それを直したら三目並べ・4x4リバーシ共に4クライアントでちゃんと収束しました。リバーシの方は4種類のそれぞれ異なる評価関数でやってもOKだったんで、多分大きなバグはもう無いはずです。 という訳で、今度は5五将棋・8クライアントでやってみます。前に書いた、評価項目の違いで8種類の評価関数を使用するやり方です。 これで対sspの勝率が6割超えたら、今度は本将棋に適用してみたいですね。