Współpracujemy z społecznością OSS, aby wyeliminować zgadywanie w rozproszonym serwowaniu, integrując NVIDIA Dynamo w stosie, z wsparciem dla wszystkich głównych frameworków serwowania inferencji. 🔹 Społeczność @sgl_project poprawia wydajność inferencji AI — redukując zgadywanie i umożliwiając szybsze, bardziej efektywne i skalowalne wykonywanie modeli. 🔹 Mooncake AI stworzył pierwszy backend SGLang dla AIConfigurator, umożliwiając szybkie wsparcie dla modeli takich jak Llama, Qwen i DeepSeek poprzez wdrożenie warstwy kolektora dla podstawowych operacji, takich jak GEMM i uwaga. 🔹 @alibaba_cloud zintegrował AIConfigurator w swoim Stosie Serwowania AI na Kubernetes (ACK), używając silnika orkiestracji RoleBasedGroup (RBG) do automatyzacji wdrożeń i zarządzania rozdzieleniem prefill/decode. Rezultat: 1,86× wyższa przepustowość na Qwen3-235B‑FP8 przy zachowaniu TTFT < 5 s i ITL < 40 ms. Przeczytaj blog techniczny →