GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

とりあえず自然方策勾配法を実装してみよう

 昨夜から評価項目を絞って、パラメータ数を1000ちょっとにしたバージョンを方策勾配法(REINFORCE)で学習させてます。

 これくらいのパラメータ数ならパラメータ数×パラメータ数の逆行列も普通に計算出来るので、評価関数をこのままで自然方策勾配法で学習させ、どの程度強くなるか試してみます。

 んで、それと並行して逆行列の近似方法を調べる(てか、はてなqで質問してるのでそれの回答を待ったりとかも)、と。

 とりあえずは、そういう方向で行ってみようと思います。