Kami bekerja sama dengan komunitas OSS untuk menghilangkan dugaan dari penyajian terpilah dengan mengintegrasikan NVIDIA Dynamo ke dalam tumpukan, dengan dukungan untuk semua kerangka kerja penyajian inferensi utama. 🔹 @sgl_project komunitas meningkatkan kinerja inferensi AI—mengurangi tebakan dan memungkinkan eksekusi model yang lebih cepat, lebih efisien, dan dapat diskalakan. 🔹 Mooncake AI membangun backend SGLang pertama untuk AIConfigurator, memungkinkan dukungan cepat untuk model seperti Llama, Qwen, dan DeepSeek dengan menerapkan lapisan kolektor untuk operasi inti seperti GEMM dan perhatian. 🔹 @alibaba_cloud mengintegrasikan AIConfigurator ke dalam AI Serving Stack di Kubernetes (ACK), menggunakan mesin orkestrasi RoleBasedGroup (RBG) untuk mengotomatiskan penerapan dan mengelola pemisahan pra-pengisian/dekode. Hasilnya: throughput 1,86× lebih tinggi pada Qwen3-235B-FP8 sambil mempertahankan TTFT < 5 detik dan ITL < 40 ms. Baca blog teknis →