連続対局はなぜか途中で止まってました
もう一晩かけてやり直しですかorz
それから、旧バージョンで方策オフモード・目標探査率高めにするとどういう風に学習するか気になったのでテスト中。目標探査率は、思い切って0.01→0.1に一桁上げました。
方策オフなんでランダム行動によるリスクは考えずに学習し、行動選択自体は今までより色々な手を試す様になる筈なので、ひょっとしたら上手く行かないかなぁ…
こうれで上手く行くようなら、新バージョンにも方策オフモードを追加してみます。
もう一晩かけてやり直しですかorz
それから、旧バージョンで方策オフモード・目標探査率高めにするとどういう風に学習するか気になったのでテスト中。目標探査率は、思い切って0.01→0.1に一桁上げました。
方策オフなんでランダム行動によるリスクは考えずに学習し、行動選択自体は今までより色々な手を試す様になる筈なので、ひょっとしたら上手く行かないかなぁ…
こうれで上手く行くようなら、新バージョンにも方策オフモードを追加してみます。