المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
الحيل لا تتوسع في الحدود. الرياضيات تفعل ذلك.
لقد أثبتت DeepSeek ذلك للتو.
لقد خسروا أداء رائعا في إنهاء عام 2025.
"mHC: اتصالات مفرطة مقيدة بعدة أبعاد."
إليك سبب أهمية ذلك:
عندما انطلق التعلم العميق، اصطدم الباحثون بجدار. لا يمكنك فقط تكديس الطبقات بلا نهاية؛ الإشارات إما تنفجر أو تختفي. تدريب الشبكات العميقة كان شبه مستحيل.
حلت ResNets هذه المشكلة في عام 2016 باستخدام الاتصالات المتبقية:
الإخراج = الإدخال + ما تعلمته الطبقة
هذا ال "+" يخلق طريقا مباشرا للمعلومات. لهذا السبب يمكننا الآن تدريب شبكات بمئات الطبقات.
مؤخرا، سأل الباحثون: ماذا لو كان لدينا عدة طرق سريعة بدلا من واحد؟
وسعت الاتصالات الفائقة (HC) هذا المسار الواحد إلى 4 مسارات متوازية مع مصفوفات قابلة للتعلم تمزج المعلومات بين التدفقات.
كانت المكاسب في الأداء حقيقية. لكن كانت هناك مشكلة:
تتجمع هذه المصفوفات المزج عبر الطبقات. تضخيم ضئيل بنسبة 5٪ لكل طبقة يصبح 18 ضعف بعد 60 طبقة. قاس الورقة تضخيم يصل إلى 3000 مرة، مما أدى إلى انهيارات التدريب.
الحلول المعتادة: قص التدرج، تهيئة دقيقة، وأمل أن تسير الأمور على ما يرام.
عاد ديب سيك إلى المبادئ الأولى: ما هو القيد الرياضي الذي يضمن الاستقرار؟
كان الجواب مخفيا في خوارزمية عمرها 59 عاما (سينكهورن-كنوب 1967)
يجبر ذلك على أن تكون مصفوفات الخلط عشوائية مزدوجة، مما يعني أن الصفوف والأعمدة يجمع كل منها إلى 1.
النتائج:
- عدم استقرار 3000x → 1.6x
- الاستقرار مضمونه بالرياضيات، وليس بالحظ
- فقط 6.7٪ من تكاليف التدريب الإضافية
لا حيل أو حيل للحيلة. مجرد رياضيات.
إذا أردت قراءة المزيد، فقد شاركت رابط الورقة في التغريدة القادمة.

ورق:
206
الأفضل
المُتصدِّرة
التطبيقات المفضلة
