تجميع NVIDIA DGX Spark + M3 Ultra Mac Studio لاستدلال LLM أسرع 4 مرات. DGX Spark: 128 جيجابايت @ 273 جيجابايت / ثانية ، 100 TFLOPS (fp16) ، 3,999 دولارا M3 Ultra: 256 جيجابايت @ 819 جيجابايت / ثانية ، 26 TFLOPS (fp16) ، 5,599 دولارا يحتوي DGX Spark على عرض نطاق ترددي أقل للذاكرة 3 أضعاف من M3 Ultra ولكن 4 أضعاف FLOPS. من خلال تشغيل الملء المسبق المرتبط بالحوسبة على DGX Spark ، وفك التشفير المرتبط بالذاكرة على M3 Ultra ، وبث ذاكرة التخزين المؤقت KV عبر 10 جيجابت ، يمكننا الحصول على أفضل ما في كلا الجهازين مع تسريع هائل. شرح موجز في هذا الموضوع ورابط إلى منشور المدونة الكامل أدناه.
يتكون استدلال LLM من مرحلة التعبئة المسبقة وفك التشفير. يعالج الملء المسبق المطالبة، وبناء ذاكرة تخزين مؤقت للجهد الكيلو فولت. إنه مرتبط بالحوسبة ، لذا يصبح أسرع مع المزيد من FLOPS. يقرأ فك التشفير ذاكرة التخزين المؤقت KV ويولد الرموز المميزة واحدة تلو الأخرى. إنه مرتبط بالذاكرة لذا يصبح أسرع مع المزيد من النطاق الترددي للذاكرة.
يمكننا تشغيل هاتين المرحلتين على أجهزة مختلفة: التعبئة المسبقة: DGX Spark (جهاز حوسبة عالية، حوسبة 4x) فك التشفير: M3 Ultra (جهاز عرض النطاق الترددي العالي للذاكرة ، عرض النطاق الترددي للذاكرة 3x) ومع ذلك ، نحتاج الآن إلى نقل ذاكرة التخزين المؤقت KV عبر الشبكة (10GbE). هذا يؤدي إلى تأخير.
ولكن يتم إنشاء ذاكرة التخزين المؤقت KV لكل طبقة محول. من خلال إرسال ذاكرة التخزين المؤقت KV لكل طبقة بعد حسابها ، نقوم بتداخل الاتصال مع الحساب. نقوم بدفق ذاكرة التخزين المؤقت KV وإخفاء تأخير الشبكة. نحقق تسريعا 4x في التعبئة المسبقة و 3x في فك التشفير ، مع تأخير 0 في الشبكة.
منشور المدونة الكامل والمزيد من التفاصيل حول EXO 1.0: شكرا @NVIDIA على الوصول المبكر إلى اثنين من DGX Sparks. #SparkSomethingBig
‏‎439.67‏K