Scalare l'apprendimento degli agenti tramite sintesi dell'esperienza 📝: Scalare gli ambienti di addestramento per RL simulandoli con LLM di ragionamento! Modelli ambientali + Replay-buffer + Nuove attività = RL economico per qualsiasi ambiente! - Forti miglioramenti rispetto agli ambienti non pronti per RL e a più famiglie di modelli! - Funziona meglio nelle impostazioni sim-2-real RL → Warm-start per ambienti ad alto costo 🧵1/7