終盤学習の実装中
山本@ひまわりさん発案の「終盤学習」を実装・テスト中です。
深い探索(通常探索もしくは詰将棋ルーチン)で得た詰みの手順を、浅い探索の教師として(浅い探索でも同じ手を指せる様に)学習させる、というものです。
んで、実際に動かしてみると、金の価値がどんどん上昇していきます。(駒割は終盤学習時のパラメータ修正の対象外としているのですが、何故かこうなります。)
多分、敵の金を取ってから詰める手順が多いからそうなってるんだと思いますが、どうしたものかなぁ、この現象。
今はルートノード*1の手だけを学習対象としていますが、内部ノードも学習させる様にしたら改善するかな?
アイデアとしては非常に面白いので、もう少し突き詰めてやってみます。
*1:詰みが見つかった局面