Wir arbeiten mit der OSS-Community zusammen, um das Rätselraten bei der disaggregierten Bereitstellung zu beseitigen, indem wir NVIDIA Dynamo in den Stack integrieren, mit Unterstützung für alle wichtigen Inferenz-Serving-Frameworks. 🔹 Die @sgl_project-Community verbessert die AI-Inferenzleistung – sie reduziert das Rätselraten und ermöglicht eine schnellere, effizientere und skalierbare Modellausführung. 🔹 Mooncake AI hat das erste SGLang-Backend für AIConfigurator entwickelt, das eine schnelle Unterstützung für Modelle wie Llama, Qwen und DeepSeek ermöglicht, indem die Collector-Schicht für Kernoperationen wie GEMM und Attention implementiert wird. 🔹 @alibaba_cloud hat AIConfigurator in seinen AI Serving Stack auf Kubernetes (ACK) integriert und nutzt die RoleBasedGroup (RBG) Orchestrierungs-Engine, um Bereitstellungen zu automatisieren und die Disaggregation von Vorbefüllung/Dekodierung zu verwalten. Das Ergebnis: 1,86× höhere Durchsatzrate bei Qwen3-235B‑FP8 bei gleichzeitiger Beibehaltung von TTFT < 5 s und ITL < 40 ms. Lesen Sie den technischen Blog →