GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

PGLeaf Drei Phase 2ほぼ完成か?

 現在開発中の学習ルーチンは「PGLeaf Drei」と呼んでいますが、Phase 2まで(多分)完成しました。

 まず、Phase 1でREINFORCEベースだったものから、関数近似を用いたActor-Critic化を行いました。

 で、Phase 2ではExperience Replayの導入をしたのですが、色々と細かい工夫の積み重ね&メタパラメータの調整をして、なんとか素のPGLeafよりやや良いらしい所まで来ました。

 ただ、比較実験の回数がまだ少ないので、これから学習を50回繰り返して、その結果を見て最終判断となります。

 最終段階がPhase 3で、メタ強化学習を組み込む事になります。こっちは、既にプロトタイプが動作しているので割とすぐ実装出来そうです。