Escalado del aprendizaje de agentes a través de la síntesis de experiencias 📝: ¡Escalar entornos de entrenamiento para RL simulándolos con LLM de razonamiento! Modelos de entorno + Replay-buffer + Nuevas tareas = ¡RL barato para cualquier entorno! - ¡Fuertes mejoras en los entornos no listos para RL y múltiples familias de modelos! - Funciona mejor en configuraciones de RL sim-2-real → Arranque en caliente para entornos de alto costo 🧵1/7