2010-09-28 ソフトマックス方策を用いた方策勾配法の計算式その2〜温度も学習しよう〜 開発日記 メモ 方策πの式は下記の通り(再掲)。 Qは価値関数で、sの手番が優位な局面ほど高い値となる。 んで、温度Tで偏微分すると下記の通り。 // TeXの式が長すぎて画像表示されなくなったので、続きは別に。