Apprentissage par renforcement à grande échelle via la synthèse d'expérience 📝: Élargir les environnements d'entraînement pour l'apprentissage par renforcement en les simulant avec des LLM de raisonnement ! Modèles d'environnement + Buffer de replay + Nouvelles tâches = apprentissage par renforcement économique pour tous les environnements ! - Améliorations significatives par rapport aux environnements non prêts pour l'apprentissage par renforcement et à plusieurs familles de modèles ! - Fonctionne mieux dans des réglages d'apprentissage par renforcement sim-2-réalité → Démarrage à chaud pour des environnements coûteux 🧵1/7