AdaGradとRMSProp
http://qiita.com/skitaoka/items/e6afbe238cd69c899b2a
上記サイトを参考に勉強していますが、ようやくAdaGradとRMSPropの違いが理解出来ました。
大雑把に書くと、AdaGradは「勾配の累積が大→学習率小」なので、「学習初期に大きく値を動かしたパラメータは、学習後期には学習率が小さくなる」。
それに対して、RMSPropは「勾配の加重平均が大→学習率小」なので、「最近大きく値を動かしたパラメータは、学習率が小さくなる」。
多分、AdaGradは定常環境向け、RMSPropは非定常環境向けだと思われます。
まぁ、この辺の事は一度実験してみないとはっきりした事は言えないので、お試しで実装してみます。