Experience Replayを実装
探索ルーチンの学習が行き詰まり気味なので、気分転換も兼ねてExperience Replayを実装。
どういう手法かというと、過去の局面・指し手・報酬を全て記録しておき、その中からランダムサンプリングしたものを使ってパラメータ修正を行うというもの。
どうも、パラメータの振動・発散を防止可能だそうです。
んで、ザクっと実装して現在2パターンのコードをテスト中。Experience Replayでのみパラメータ修正するパターンと、それプラス最新の対局結果から修正するパターンです。