Softmax実現確率探索 相変わらず実装中
試しに自己対戦の一棋譜だけを対象に学習させるモードを実装。
んで、走らせてみると最善手以外の遷移確率が上昇していくという変な現象が。
明らかにバグなんですが、学習則が複雑なのでどこがバグってるかサッパリです。
…いっぺん、学習部分をシンプルにしてみる(ルートノードの手だけを学習する、とか)ってのもいいかもしれません。
試しに自己対戦の一棋譜だけを対象に学習させるモードを実装。
んで、走らせてみると最善手以外の遷移確率が上昇していくという変な現象が。
明らかにバグなんですが、学習則が複雑なのでどこがバグってるかサッパリです。
…いっぺん、学習部分をシンプルにしてみる(ルートノードの手だけを学習する、とか)ってのもいいかもしれません。