الحلقة 1: إنفيديا "تستحوذ" على جروك من @vikramskr و@theaustinlyons النقاط الأساسية: - وحدات معالجة الرسومات ليست ميتة. رجل البناء الكبير ليس ميتا. - وحدات LPUs تحل مشكلة مختلفة: الاستدلال الحتمي ذو الكمون المنخفض جدا للنماذج الصغيرة. - لا تزال النماذج الكبيرة تتطلب أنظمة مبنية على صواريخ البناء الهولي. - خطوة Nvidia توسع مساحة محفظة الاستدلال بدلا من استبدال وحدات معالجة الرسوميات. - مستقبل البنية التحتية الذكاء الاصطناعي هو تحسين خاص بعبء العمل ونشر مدفوع بتكلفة العمل. المواضيع الرئيسية: - ما الذي اشترته Nvidia فعليا من Groq ولماذا ليس استحواذا تقليديا - لماذا أثارت الصفقة ادعاءات بأن وحدات معالجة الرسوميات وHBM أصبحت قديمة - المقايضات المعمارية بين وحدات معالجة الرسوميات، وحدات معالجة الرسومات (TPUs)، وحدات الإكس بي (XPU)، ووحدات الوحدة المنخفضة - SRAM مقابل HBM. السرعة، القدرة، التكلفة، وواقع سلسلة التوريد - أساسيات وحدة LPU في Groq: VLIW، تنفيذ المجدول بواسطة المترجم، الحتمية، زمن استجابة منخفض جدا - لماذا تواجه وحدات LPU صعوبة مع النماذج الكبيرة وأين تتفوق بدلا من ذلك - حالات الاستخدام العملية للاستدلال ذو الكمون المنخفض جدا: -- تخصيص نص الإعلانات في ميزانيات زمن الاستجابة للبحث -- توجيه النماذج وتنسيق الوكلاء -- واجهات الحوار والترجمة الفورية -- الروبوتات والذكاء الذكاء الاصطناعي الفيزيائي على الحافة -- التطبيقات المحتملة في البنية التحتية الذكاء الاصطناعي-RAN والاتصالات - الذاكرة كطيف تصميم: SRAM فقط، SRAM مع DDR، SRAM بالإضافة إلى HBM - نهج Nvidia المتنامي في المحفظة لأجهزة الاستدلال بدلا من مقياس واحد يناسب الجميع