2010-09-29 評価値の計算式を変えるんで、方策勾配法の式を再計算 開発日記 メモ まず、行動価値関数(≒評価関数)の式は下記の通り。 ここで、Bは特徴量の数(次元数)、は特徴量、sはシグモイド関数(+α*1)で、下記の通り。gはゲイン。 次に、方策は下記の通り。 次に、は下記の通り計算出来る。なお、式中の// 2010/10/17 21:10修正 *1:値が-1から1になる様に調整する