PGLeaf Drei Phase 2ほぼ完成か？ - GA将？開発日記～王理のその先へ～

　現在開発中の学習ルーチンは「PGLeaf Drei」と呼んでいますが、Phase 2まで（多分）完成しました。

　まず、Phase 1でREINFORCEベースだったものから、関数近似を用いたActor-Critic化を行いました。

　で、Phase 2ではExperience Replayの導入をしたのですが、色々と細かい工夫の積み重ね＆メタパラメータの調整をして、なんとか素のPGLeafよりやや良いらしい所まで来ました。

　ただ、比較実験の回数がまだ少ないので、これから学習を50回繰り返して、その結果を見て最終判断となります。

　最終段階がPhase 3で、メタ強化学習を組み込む事になります。こっちは、既にプロトタイプが動作しているので割とすぐ実装出来そうです。