ソフトマックス方策を用いた方策勾配法の計算式
どっかおかしかったら指摘お願いします。
まず、行動価値関数Qは下記の通りの線形近似を行う。
ここで、Bは特徴量の数(次元数)、は特徴量。
次に、方策は下記の通り。
次に、は下記の通り計算出来る。
// 17:54修正 こうですか分かりません
// 21:09追記 間違ってました、今から修正します
// 21:50修正 添削済みなんで、多分これであってます
// 2010/10/17 21:08 下の式、思いっ切り間違ってます。ただ、この式はもう使わないので放置。
んで、後はこれをプログラムに落し込むだけなんですが…出来るのか、本当に?