Estamos trabajando con la comunidad OSS para eliminar las conjeturas del servicio desagregado integrando NVIDIA Dynamo en la pila, con soporte para todos los principales frameworks de servicio de inferencia. 🔹 @sgl_project comunidad está mejorando el rendimiento de la inferencia de IA, reduciendo las conjeturas y permitiendo una ejecución de modelos más rápida, eficiente y escalable. 🔹 Mooncake AI construyó el primer backend SGLang para AIConfigurator, permitiendo soporte rápido para modelos como Llama, Qwen y DeepSeek mediante la implementación de la capa colectora para operaciones centrales como GEMM y atención. 🔹 @alibaba_cloud integró AIConfigurator en su AI Serving Stack on Kubernetes (ACK), utilizando el motor de orquestación RoleBasedGroup (RBG) para automatizar despliegues y gestionar la desagregación de pre-llenado/decodificación. El resultado: 1,86× mayor rendimiento en Qwen3-235B-FP8 manteniendo TTFT < 5 s y ITL < 40 ms. Lee el blog técnico →