Chúng tôi đang làm việc với cộng đồng OSS để loại bỏ sự đoán mò trong việc phục vụ phân tán bằng cách tích hợp NVIDIA Dynamo vào hệ thống, với sự hỗ trợ cho tất cả các khung phục vụ suy diễn chính. 🔹 Cộng đồng @sgl_project đang cải thiện hiệu suất suy diễn AI—giảm thiểu sự đoán mò và cho phép thực thi mô hình nhanh hơn, hiệu quả hơn và có thể mở rộng. 🔹 Mooncake AI đã xây dựng backend SGLang đầu tiên cho AIConfigurator, cho phép hỗ trợ nhanh chóng cho các mô hình như Llama, Qwen và DeepSeek bằng cách triển khai lớp thu thập cho các hoạt động cốt lõi như GEMM và attention. 🔹 @alibaba_cloud đã tích hợp AIConfigurator vào Hệ thống phục vụ AI của mình trên Kubernetes (ACK), sử dụng động cơ điều phối RoleBasedGroup (RBG) để tự động hóa việc triển khai và quản lý phân tán prefill/giải mã. Kết quả: thông lượng cao hơn 1.86× trên Qwen3-235B‑FP8 trong khi duy trì TTFT < 5 s và ITL < 40 ms. Đọc blog kỹ thuật →