Smooth DiLoCo: ( @aaron_defazio y otros) Alternativa no distribuida, con menos sobrecarga de memoria (solo un búfer extra) y una actualización continua en lugar de la actualización externa periódica (bastante violenta) del DiLoCo clásico. ¡Curioso por ver cómo se expande a distribuido!