Articolo interessante che rende l'intera traiettoria RL differenziabile, consentendo il backpropagation nel tempo. Campionano "soft tokens", li reinseriscono nel trasformatore e applicano una ricompensa differenziabile su di essi. Lavoro molto interessante! 🔗