TDLeaf(λ)で王手将棋の実験中
後手は1筋の駒から順に動かすルーチン(テスト用)にして、先手が3手で勝つ手順を見つけれるかどうかのテストです。
方策はソフトマックスで、温度を小刻みに変えながら収束するまでの対局数の変化をチェックします。
収束の判定は、終了までの手数の10局移動平均が3.2を切ったら収束と判定しています。
ざっと調べた限りでは、温度が0.001〜0.01の間あたりにベストの値がありそうなんですが、ちゃんと調べるのは一晩かかりそうです。
まぁ、プログラム走らせる他は、私がすべき事は何もないんですけどね。