نعمل مع مجتمع OSS لإزالة التخمين من الخدمة المفصلة من خلال دمج NVIDIA Dynamo في المجموعة، مع دعم لجميع أطر خدمة الاستدلالات الرئيسية. 🔹 يعمل مجتمع @sgl_project على تحسين أداء الاستنتاج بالذكاء الاصطناعي — مما يقلل من التخمين ويتيح تنفيذ نماذج أسرع وأكثر كفاءة وقابلية للتوسع. 🔹 أنشأت Mooncake AI أول خلفية SGLang ل AIConfigurator، مما أتاح دعما سريعا لنماذج مثل Llama وQwen وDeepSeek من خلال تنفيذ طبقة المجمع للعمليات الأساسية مثل GEMM وAttention. 🔹 دمجت @alibaba_cloud AIConfigurator في مكدس خدمة الذكاء الاصطناعي على Kubernetes (ACK)، مستخدمة محرك التنسيق RoleBasedGroup (RBG) لأتمتة النشر وإدارة التعبئة المسبقة/فك الترميز. النتيجة: معدل نقل أعلى بمقدار 1.86× على Qwen3-235B-FP8 مع الحفاظ على TTFT < 5 ثوان وITL < 40 مللي ثانية. اقرأ المدونة التقنية →