駒の価値のグラフ
こんな感じです。
実験の条件は以下の通り。
- Q(λ)*1
- 学習率=0.0001
- λ=0.9
- 評価項目は駒割+王将との相対位置
約22時間走らせて、対局数は3万4千ほどでした。
上記のグラフには王将との相対位置による駒の価値の増減を反映していないので、実際とは異なります。
つーか、まだ値がどーのこーの言う段階じゃないですね、どう見ても。
ただ、成り香・成り桂の価値がほとんど変化していない事から、滅多に使用しないパラメータの学習が遅くなっているらしい事は分かります。
この辺は時間をかけて(=対局数を増やして)何とかするか、それとも別の方法を考えるか。
まぁその前にαβで先読みするとか詰め将棋ルーチンを作るとかTDLeaf(λ)を実装するとか色々しないといけないので、まずはそっちから。
多少遅くても駒割を学習出来る様にして、学習速度はその後に考えます。