評価関数の変更で学習が遅くなっているかも
対局終了までの手数を眺めていると、パラメータ次第では徐々に短くなっています。
ただし、最短の3手で終了するところまでは行っていないので、対局数を1000から1万に増やしてリトライ。
やっぱり、駒の絶対位置の評価より二駒の相対位置の評価の方がパラメータ数が増えた影響で、学習が遅くなっているんじゃないかと。
対局終了までの手数を眺めていると、パラメータ次第では徐々に短くなっています。
ただし、最短の3手で終了するところまでは行っていないので、対局数を1000から1万に増やしてリトライ。
やっぱり、駒の絶対位置の評価より二駒の相対位置の評価の方がパラメータ数が増えた影響で、学習が遅くなっているんじゃないかと。