光さす庭で
丁度一年ほど前に自然方策勾配法、無理かもという記事を書きましたが、改めてパラメータ数を数えてみると行けそう。
現状の評価項目で進行度無しだと、パラメータ保存用に確保している領域が33,513個。ただ、この内2/3〜3/4は使ってないデッドスペースなんで、実際の個数は多分1万前後です。
そうすると、パラメータ数×パラメータ数の行列はfloat型だと400MBで収まりますので、主記憶に載ります。
という訳で、とりあえずは正確なパラメータ数を調べるコードを書いて、その後自然方策勾配法の勉強をしてみます。
方策勾配法で学習が停滞しているらしいのが学習エージェント側の問題なら、自然方策勾配法で解決するかもしれませんし、いっちょ気合入れてやってみます。ひょっとしたら選手権までに化けるかも!!!