縦横5マスの格子世界で、左下からスタートして右上に到達したらゴール、という問題をREINFORCEと改良案(RPS)で解かせてみました。 同一条件でテストした結果が上記で、左が改良版・右が素のREINFORCEです。 左の方は、ゴールを除く全てのマスで最適な方策*…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。