الجمع بين NVIDIA DGX Spark + Apple M3 Ultra Mac Studio لاستدلال LLM أسرع 4 مرات باستخدام EXO. DGX Spark: 128 جيجابايت @ 273 جيجابايت / ثانية ، 100TFLOPS (fp16) M3 Ultra Mac Studio: 512 جيجابايت @ 819 جيجابايت / ثانية ، 26 TFLOPS (fp16) يحتوي DGX Spark على ~ 4x FLOPS من M3 Ultra ولكن عرض النطاق الترددي للذاكرة أقل بمقدار 3 مرات. تمكنا من الحصول على زيادة في الأداء بمقدار 4 أضعاف من خلال الجمع بين الأجهزة وحساب متداخل بعناية واتصالات الشبكة (أكثر من 10 جيجابت). كيف؟ يتكون استدلال LLM من مرحلتين: التعبئة المسبقة وفك التشفير. الملء المسبق مرتبط بالحوسبة ويصبح أسرع مع المزيد من FLOPS. فك التشفير مرتبط بالذاكرة ويصبح أسرع مع المزيد من عرض النطاق الترددي للذاكرة. من خلال تشغيل التعبئة المسبقة المرتبطة بالحوسبة على DGX Spark وفك التشفير المرتبط بالذاكرة على M3 Ultra ، تمكنا من تحقيق تسريع 4x في التعبئة المسبقة مقارنة ب M3 Ultra Mac Studio وحده وتسريع 3x عند التوليد مقارنة ب DGX Spark وحده. مزيد من التفاصيل في منشور المدونة أدناه.