بحث مثير للاهتمام من ميتا حول اتجاهات توسع الأجهزة. المزيد من وحدات معالجة الرسومات لا يعني دائما تدريبا أسرع. النهج الافتراضي لتوسيع تدريب نماذج اللغة الكبيرة اليوم لا يزال يركز على المزيد من الأجهزة على المشكلة. المزيد من المسرعات، المزيد من التوازي، المزيد من الحوسبة. ومع ذلك، هناك سقف لا تراه معظم الفرق حتى تصل إليه. تظهر هذه الأبحاث الجديدة أن توسيع العدد الكلي للمسرعات لتدريب النماذج الكبيرة يؤدي بسرعة إلى عوائد متناقصة، حتى مع تحسين الأجهزة واستراتيجيات التوازي. اختبر الباحثون نماذج Llama-2 (معلمات من 1B إلى 70B) عبر 8 إلى 2048 وحدة معالجة رسومات تغطي أجهزة V100 وA100 وH100. ماذا وجدوا؟ عند التوسع من 128 إلى 2048 وحدة معالجة رسوميات، انخفض معدل النقل بنسبة 37.22٪ بينما انخفض استهلاك الطاقة لكل بطاقة معالجة رسومات بنسبة 5.87٪ فقط. السبب هو عبء الاتصالات الفوقية. على نطاق واسع، تصبح عمليات AllGather وReduceScatter (وهما من بدائيات MPI) عنق زجاجة. معظم الاتصالات تصبح مكشوفة، ولا يمكن للحوسبة إخفاء التأخير بعد الآن. بشكل غير متوقع، فإن استراتيجيات التوازي النموذجي (التوازي في التنسور وخط الأنابيب عند الدرجات 2-4) التي كان يعتقد سابقا أنها تقلل من استخدام الأجهزة أصبحت مفضلة على نطاق واسع. تقلل من التواصل المكشوف مقارنة بالتوازي البحت بين البيانات. على الأجهزة الأحدث، الاستخدام يزداد سوءا وليس تحسنا. انخفض استخدام نموذج FLOPS من 59.67٪ على A100 إلى 40.77٪ على H100; الشرائح الأسرع تكشف عن عبء اتصالات أكبر. لماذا يهم: إضافة المزيد من وحدات معالجة الرسومات يوفر أداء هامشيا ضعيفا لكل وحدة طاقة إضافية أو ساعة وحدة معالجة الرسوميات. تحتاج الفرق التي تتوسع إلى آلاف المسرعات إلى إعادة النظر بعناية في استراتيجيات التوازي بدلا من افتراض أن المزيد من الأجهزة يعني تدريبا أسرع.