2018-11-05から1日間の記事一覧
現在開発中の学習ルーチンは「PGLeaf Drei」と呼んでいますが、Phase 2まで(多分)完成しました。 まず、Phase 1でREINFORCEベースだったものから、関数近似を用いたActor-Critic化を行いました。 で、Phase 2ではExperience Replayの導入をしたのですが、…
現在開発中の学習ルーチンは「PGLeaf Drei」と呼んでいますが、Phase 2まで(多分)完成しました。 まず、Phase 1でREINFORCEベースだったものから、関数近似を用いたActor-Critic化を行いました。 で、Phase 2ではExperience Replayの導入をしたのですが、…