Artículo interesante que hace que toda la trayectoria RL sea diferenciable, permitiendo la retropropagación a través del tiempo. Muestrean "tokens blandos", los devuelven al transformador y aplican una recompensa diferenciable sobre ellos. ¡Muy buen trabajo! 🔗