…したんですが、全然収束しません。 で、一つ気付いたんですが、ボルツマン分布の温度も方策パラメータなんで、これも方策勾配法で調整してやる必要があるんじゃないかと。今までは自前のアルゴリズムで調整していましたが。 となると、もう一回あの微分をや…
とりあえず連続対戦するコードは書いたんで、後は情報収集して学習する部分を書くだけ。 本の解読も大分進んだんで、数日中には実装完了の予定。
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。