と金の価値は
昨日書き忘れてたんですが、三目並べで先後両方共学習するバージョン、ちゃんと収束する様になりました。
原因はソフトマックス方策の温度設定で、1.0だとNG(先手勝ちになる)で0.2だとOKでした。
んで、昨日の夜から学習用マシンで将棋の方の学習をしていたんですが(温度設定は同じく0.2)、駒の価値がこんな感じになってます。
駒価値_歩 : -10414.7 駒価値_桂 : 2486.94 駒価値_香 : 1033.67 駒価値_銀 : 3249.65 駒価値_金 : 1260.28 駒価値_角 : 2136.78 駒価値_飛 : 1913.32 駒価値_と : -1923.61 駒価値_圭 : 1357.11 駒価値_杏 : 1348.67 駒価値_全 : 1583.91 駒価値_馬 : 2585.38 駒価値_龍 : 2330.85
何で歩とと金に限ってマイナスになってんだよorz
どうも、温度設定が高すぎて探査率が高いので、その辺一度修正してみます。