Vi samarbeider med OSS-fellesskapet for å fjerne gjettingen ved disaggregert servering ved å integrere NVIDIA Dynamo i stakken, med støtte for alle større inferensserveringsrammeverk. 🔹 @sgl_project fellesskapet forbedrer AI-inferensytelsen – reduserer gjetting og muliggjør raskere, mer effektiv og skalerbar modellutførelse. 🔹 Mooncake AI bygde den første SGLang-backenden for AIConfigurator, og muliggjorde rask støtte for modeller som Llama, Qwen og DeepSeek ved å implementere collector-laget for kjerneoperasjoner som GEMM og attention. 🔹 @alibaba_cloud integrerte AIConfigurator i sin AI Serving Stack på Kubernetes (ACK), ved å bruke RoleBasedGroup (RBG) orkestreringsmotoren for å automatisere distribusjoner og håndtere prefill/dekoding av disaggregasjon. Resultatet: 1,86× høyere gjennomstrømning på Qwen3-235B-FP8 samtidig som TTFT < 5 sekunder ble opprettholdt og ITL < 40 ms. Les den tekniske bloggen →