Estamos trabajando con la comunidad OSS para eliminar la incertidumbre en el servicio desagregado integrando NVIDIA Dynamo en la pila, con soporte para todos los principales marcos de servicio de inferencia. 🔹 La comunidad @sgl_project está mejorando el rendimiento de la inferencia de IA, reduciendo la incertidumbre y permitiendo una ejecución de modelos más rápida, eficiente y escalable. 🔹 Mooncake AI construyó el primer backend SGLang para AIConfigurator, permitiendo un soporte rápido para modelos como Llama, Qwen y DeepSeek al implementar la capa de colector para operaciones centrales como GEMM y atención. 🔹 @alibaba_cloud integró AIConfigurator en su pila de servicio de IA en Kubernetes (ACK), utilizando el motor de orquestación RoleBasedGroup (RBG) para automatizar implementaciones y gestionar la desagregación de prellenado/decodificación. El resultado: 1.86× mayor rendimiento en Qwen3-235B‑FP8 manteniendo TTFT < 5 s e ITL < 40 ms. Lee el blog técnico →