Interesante artículo que hace que toda la trayectoria de RL sea diferenciable, lo que permite la retropropagación a través del tiempo. Muestrean "tokens suaves", los alimentan de nuevo al transformador y aplican una recompensa diferenciable sobre ellos. ¡Muy buen trabajo! 🔗