OSS topluluğuyla birlikte, NVIDIA Dynamo'yu yığına entegre ederek tüm ana çıkarım hizmeti çerçevelerini destekleyerek ayrıştırılmış servisin tahminlerini ortadan kaldırmak için çalışıyoruz. 🔹 @sgl_project topluluk, yapay zeka çıkarım performansını geliştiriyor—tahmini azaltıyor ve daha hızlı, verimli ve ölçeklenebilir model yürütmesini mümkün kılıyor. 🔹 Mooncake AI, AIConfigurator için ilk SGLang arka uçunu geliştirdi ve GEMM ve dikkat gibi temel işlemler için koleksiyoncu katmanını uygulayarak Llama, Qwen ve DeepSeek gibi modeller için hızlı destek sağladı. 🔹 @alibaba_cloud, AIConfigurator'ı Kubernetes'te AI Hizmet Yığınına (ACK) entegre etti; RoleBasedGroup (RBG) orkestrasyon motorunu kullanarak dağıtımları otomatikleştirdi ve ön doldurma/kod çözme ayrıştırmasını yönetti. Sonuç olarak: Qwen3-235B-FP8'de TTFT 5 saniye < ITL ve 40 ms < sürerken, Qwen3-235B-FP8'de 1.86× daha yüksek veri verimliliği. Teknik blogu okuyun →