GA将?開発日記~王の理とは~

ネタ勢最強を目指して絶賛開発中。

PGLeaf Vier開発開始

medium.com

 Experience Replayを使いたかったので、上記のサイトを参考に実装。

 現時点での構成は「REINFORCEベースのPGLeaf+Experience Replay+重点サンプリング」ですが、最終的にはもっと色々拡張する予定。

強化学習 (機械学習プロフェッショナルシリーズ)

強化学習 (機械学習プロフェッショナルシリーズ)

 んで、今日買ってきたMLPシリーズの「強化学習」に、関数近似を用いた方策勾配法の初見の手法が載っていたので、次はそれを実装する予定。

 現在は三目並べモードでデータ収集中なんで、それが終わってから(多分2時間後)改良しますかね。

 …あ、その前に不要なコードとかの整頓しとかないと、スパゲッティコードになっちゃう。