PGLeaf Vier開発開始
Experience Replayを使いたかったので、上記のサイトを参考に実装。
現時点での構成は「REINFORCEベースのPGLeaf+Experience Replay+重点サンプリング」ですが、最終的にはもっと色々拡張する予定。
- 作者: 森村哲郎
- 出版社/メーカー: 講談社
- 発売日: 2019/05/23
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
んで、今日買ってきたMLPシリーズの「強化学習」に、関数近似を用いた方策勾配法の初見の手法が載っていたので、次はそれを実装する予定。
現在は三目並べモードでデータ収集中なんで、それが終わってから(多分2時間後)改良しますかね。
…あ、その前に不要なコードとかの整頓しとかないと、スパゲッティコードになっちゃう。