2012-02-01 とりあえず自然方策勾配法を実装してみよう 開発日記 昨夜から評価項目を絞って、パラメータ数を1000ちょっとにしたバージョンを方策勾配法(REINFORCE)で学習させてます。 これくらいのパラメータ数ならパラメータ数×パラメータ数の逆行列も普通に計算出来るので、評価関数をこのままで自然方策勾配法で学習させ、どの程度強くなるか試してみます。 んで、それと並行して逆行列の近似方法を調べる(てか、はてなqで質問してるのでそれの回答を待ったりとかも)、と。 とりあえずは、そういう方向で行ってみようと思います。