اركع واقرأ أحدث مقال من ديبسيك () لنأخذ فهما سطحيا، وسيصحح الجميع ما هو خطأ توفر هذه الدراسة (mHC) في الأساس حل ترقية النموذج "منخفض التكلفة وعائد عالي" لصناعة الذكاء الاصطناعي. تأثير النموذج: يعزز بشكل كبير "القدرة على التفكير" أكثر ذكاء: يحسن mHC بشكل كبير قوة معالجة الذكاء الاصطناعي دون تغيير بنية النموذج التحتية. في الاختبارات التي تعكس التفكير المنطقي وفهم القراءة، مثل BBH وDROP، يتحسن الأداء بنسبة 2.1٪ إلى 2.3٪. هذا يعني أن النموذج سيتصرف أكثر ك"خبير" منه ك"مكرر" عند التعامل مع مهام مثل منطق الأعمال المعقد، والتحليل المالي، وغيرها. تكلفة التدريب: خسارة أداء منخفضة جدا مقابل ربحية عالية. فعالة من حيث التكلفة: على الرغم من أن هذه التقنية الجديدة تزيد من عرض نقل المعلومات، إلا أنه من خلال تحسين التعاون العميق بين البرمجيات والأجهزة، فإن تكلفة الوقت الفعلي لتدريب نموذج كبير يحتوي على 27 مليار معلم تزيد فقط بنسبة حوالي 6.7٪. بالنسبة للمستثمرين، يعني ذلك استبدال كمية صغيرة جدا من الطاقة الإضافية والطاقة الحوسبة مقابل أداء نموذج من الدرجة الأعلى. استقرار التدريب: تجنب خسائر الأصول الناتجة عن "انهيار التدريب" ووداع الآلات الميتة: على الرغم من محاولات مماثلة (مثل HC) حاولت توسيع مسار المعلومات، إلا أن النماذج الكبيرة غالبا ما "تجن" أو تتعطل (قفزات الفقدان) أثناء التدريب، مما يؤدي إلى هدر الموارد الحاسوبية الثمينة. يستخدم mHC "تعاويذ التوازن" الرياضية (قيود المتعدد الأسطح) لضمان أن يكون النموذج متينا للغاية أثناء التدريب، مما يحمي استثمارات قوة الحوسبة المكلفة من الانهيارات النظامية. متطلبات الذاكرة: حلول ذكية ل "عنق الزجاجة في الأجهزة" من خلال الخوارزميات الاستخدام الذكي للذاكرة: هذه التقنية توسع "مسار" المعلومات بمقدار 4 أضعاف، مما سيستهلك نظريا الكثير من الذاكرة. لكن DeepSeek يوفر الكثير من مساحة الذاكرة مع بعض الوقت الإضافي للحوسبة عبر تقنية تسمى "إعادة الحساب الانتقائية". يسمح هذا لبطاقات الرسومات عالية الأداء مثل H100/H200 بتشغيل هذه البنية المعمارية الأكثر تعقيدا دون زيادة تكاليف الأجهزة. الإمكانيات المستقبلية: كسر الحد الأعلى التقليدي ل "آلات الكومة" نقاط نمو جديدة: في السابق، كان تحسين تأثيرات النماذج يعتمد بشكل رئيسي على "بيانات الكومة" و"وحدة معالجة الرسوميات الكومة". يفتح mHC مسارا ثالثا: تحسين الهيكل الداخلي للنموذج. يثبت أنه من خلال تحسين الاتصال بين الطبقات، يمكن استخراج المزيد من أرباح الأداء باستمرار حتى لو لم يتم زيادة حجم النموذج بشكل أعمى. تشبيه من وجهة نظر المستثمرين: إذا كان النموذج الكبير هو المصنع، فإن الترقية السابقة كانت بزيادة عدد العمال (زيادة المعايير). أما mHC، فيعيد تبسيط خطوط التجميع وقنوات اللوجستيات في المصنع دون زيادة عدد محطات العمل. لا يقتصر الأمر على توسيع سير النقل عدة مرات لنقل المزيد من الأجزاء، بل يضمن أيضا عدم توقف المصنع عن الإنتاج بسبب الازدحام اللوجستي من خلال نظام إدارة حركة مرور متطور. النتيجة النهائية هي زيادة كبيرة في كفاءة المحطة، بينما تبقى تكاليف الكهرباء وصيانة المعدات كما هي تقريبا.
"لا يقلل mHC بشكل أساسي من متطلبات الذاكرة الذكاء الاصطناعي، لكنه يزيد من ضغط الذاكرة بسبب تصميمه متعدد التدفقات" @rickawsb نظريا يحتاج mHC إلى ذاكرة أكثر
‏‎506‏