Softmax実現確率探索 まだデバッグ中
先手と後手で探索ルーチンを分け、後手のパラメータは初期値(極めて小さい乱数)に固定・先手のパラメータのみ学習って条件で連続対戦中。
んで、先手の勝率は70%を越える位まで一旦上昇し、その後下降します。
つー訳で、バグの可能性が高いんで何とかします。
先手と後手で探索ルーチンを分け、後手のパラメータは初期値(極めて小さい乱数)に固定・先手のパラメータのみ学習って条件で連続対戦中。
んで、先手の勝率は70%を越える位まで一旦上昇し、その後下降します。
つー訳で、バグの可能性が高いんで何とかします。