Estamos a trabalhar com a comunidade OSS para eliminar a incerteza na prestação desagregada, integrando o NVIDIA Dynamo na pilha, com suporte para todos os principais frameworks de prestação de inferência. 🔹 A comunidade @sgl_project está a melhorar o desempenho da inferência de IA—reduzindo a incerteza e permitindo uma execução de modelos mais rápida, eficiente e escalável. 🔹 A Mooncake AI construiu o primeiro backend SGLang para o AIConfigurator, permitindo suporte rápido para modelos como Llama, Qwen e DeepSeek, implementando a camada de coletor para operações principais como GEMM e atenção. 🔹 A @alibaba_cloud integrou o AIConfigurator na sua Pilha de Prestação de IA no Kubernetes (ACK), utilizando o motor de orquestração RoleBasedGroup (RBG) para automatizar implantações e gerir a desagregação de pré-preenchimento/decodificação. O resultado: 1,86× maior taxa de transferência no Qwen3-235B‑FP8, mantendo TTFT < 5 s e ITL < 40 ms. Leia o blog técnico →