Vi samarbetar med OSS-gemenskapen för att ta bort gissningslekarna kring disaggregerad servering genom att integrera NVIDIA Dynamo i stacken, med stöd för alla större inferensramverk. 🔹 @sgl_project community förbättrar AI-inferensprestandan – minskar gissningar och möjliggör snabbare, effektivare och skalbara modellexekveringar. 🔹 Mooncake AI byggde den första SGLang-backenden för AIConfigurator, vilket möjliggör snabbt stöd för modeller som Llama, Qwen och DeepSeek genom att implementera collector-lagret för kärnoperationer som GEMM och attention. 🔹 @alibaba_cloud integrerat AIConfigurator i sin AI Serving Stack på Kubernetes (ACK), med hjälp av RoleBasedGroup (RBG) orkestreringsmotor för att automatisera distributioner och hantera prefill/dekodningsuppdelning. Resultatet: 1,86× högre genomströmning på Qwen3-235B-FP8 samtidigt som TTFT < 5 sekunder och ITL < 40 ms bibehålls. Läs den tekniska bloggen →