Мы работаем с сообществом OSS, чтобы убрать неопределенность из раздельного обслуживания, интегрируя NVIDIA Dynamo в стек с поддержкой всех основных фреймворков для обслуживания вывода. 🔹 Сообщество @sgl_project улучшает производительность вывода ИИ — снижая неопределенность и позволяя более быстрому, эффективному и масштабируемому выполнению моделей. 🔹 Mooncake AI создала первый бэкенд SGLang для AIConfigurator, обеспечивая быструю поддержку моделей, таких как Llama, Qwen и DeepSeek, реализуя уровень коллектора для основных операций, таких как GEMM и внимание. 🔹 @alibaba_cloud интегрировала AIConfigurator в свой стек обслуживания ИИ на Kubernetes (ACK), используя движок оркестрации RoleBasedGroup (RBG) для автоматизации развертываний и управления раздельным заполнением/декодированием. Результат: 1.86× более высокая пропускная способность на Qwen3-235B‑FP8 при сохранении TTFT < 5 с и ITL < 40 мс. Читать технический блог →