四日分ぐらい
まず学習率。駒の価値の変化をグラフで見てみました。
0.1はグラフが暴れすぎ*1で、0.01は少し暴れる。0.001は暴れないけど収束にもう少し時間がかかるかな、という感じです。
んで、学習率0.001の他のパラメータですが、駒割と王将の移動範囲は割とちゃんとしているものの、絶対位置・相対位置の方は一部は正しいけど他は変でした。
んで、角と相手の王将との相対位置を見てみると、角から左上の利きのライン上に王将がいる時は角をプラスの評価しているんですが、右上のラインはほぼ0になっていました。
この結果を見ると対局数不足か同じ様な対局が続いているかのどちらかだと思うんですが・・・さて、どっちから手をつけようか。
とりあえずはMTD(f)を実装して高速化、その後メタ強化学習を実装してε*2の学習をさせる、ってのが安全かな。
MTD(f)の方は単なる高速化なので、それほど変な副作用は出にくいでしょうし。
あぁ、その前に王将周辺の利きの実装を修正しないと。とりあえず今日はその辺からやってみます。
/** 01/26 21:55追記 */
対局数不足が原因なら、パラメータの比率は正しいけど絶対値が小さいって状況になるはずなので、それが原因では無さそうです。
となるとメタ強化学習を実装するのが先ですか。