Colaborăm cu comunitatea OSS pentru a elimina presupunerile legate de serviciul dezaggregat, integrând NVIDIA Dynamo în stack, cu suport pentru toate principalele framework-uri de servire a inferenței. 🔹 @sgl_project comunitate îmbunătățește performanța inferenței AI — reducând presupunerile și permițând execuția mai rapidă, mai eficientă și scalabilă a modelelor. 🔹 Mooncake AI a construit primul backend SGLang pentru AIConfigurator, permițând suport rapid pentru modele precum Llama, Qwen și DeepSeek prin implementarea stratului colector pentru operațiuni de bază precum GEMM și atenție. 🔹 @alibaba_cloud integrat AIConfigurator în AI Serving Stack on Kubernetes (ACK), folosind motorul de orchestrare RoleBasedGroup (RBG) pentru a automatiza implementările și a gestiona dezagregarea prefill/decod. Rezultatul: 1,86× un debit mai mare pe Qwen3-235B-FP8, menținând TTFT < 5 s și ITL < 40 ms. Citește blogul tehnic →