Experience Replayを実装 - GA将？開発日記～王理のその先へ～

　探索ルーチンの学習が行き詰まり気味なので、気分転換も兼ねてExperience Replayを実装。

　どういう手法かというと、過去の局面・指し手・報酬を全て記録しておき、その中からランダムサンプリングしたものを使ってパラメータ修正を行うというもの。

　どうも、パラメータの振動・発散を防止可能だそうです。

　んで、ザクっと実装して現在2パターンのコードをテスト中。Experience Replayでのみパラメータ修正するパターンと、それプラス最新の対局結果から修正するパターンです。