المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
لقد أصلحت DeepSeek للتو واحدة من أقدم مشاكل الذكاء الاصطناعي.
(باستخدام خوارزمية عمرها 60 عاما)
إليكم القصة:
عندما انطلق التعلم العميق، اصطدم الباحثون بجدار. لا يمكنك فقط تكديس الطبقات بلا نهاية. الإشارات إما تنفجر أو تختفي. تدريب الشبكات العميقة كان شبه مستحيل.
حلت ResNets هذه المشكلة في عام 2016 باستخدام الاتصالات المتبقية:
الإخراج = الإدخال + ما تعلمته الطبقة
هذا ال "+" يخلق طريقا مباشرا للمعلومات. لهذا السبب يمكننا الآن تدريب شبكات بمئات الطبقات.
مؤخرا، سأل الباحثون: ماذا لو كان لدينا عدة طرق سريعة بدلا من واحد؟
وسعت الاتصالات الفائقة (HC) هذا المسار الواحد إلى 4 مسارات متوازية مع مصفوفات قابلة للتعلم تمزج المعلومات بين التدفقات.
كانت المكاسب في الأداء حقيقية. لكن كانت هناك مشكلة:
تتجمع هذه المصفوفات المزج عبر الطبقات. تضخيم ضئيل بنسبة 5٪ لكل طبقة يصبح 18 ضعف بعد 60 طبقة. قاس الورقة تضخيم يصل إلى 3000 مرة. انهيار التدريب.
الحلول المعتادة؟ قص التدرج. تهيئة دقيقة. آمل أن تسير الأمور على ما يرام.
هذه حيل حقيقية. والاختراقات لا تتوسع بمسارها.
عاد ديب سيك إلى المبادئ الأساسية. ما هو القيد الرياضي الذي يضمن الاستقرار؟
كان الجواب موجودا في ورقة بحثية عام 1967: خوارزمية سينكهورن-نوب.
يجبر ذلك على مصفوفات الخلط لتكون "عشوائية مزدوجة"، حيث تجمع الصفوف والأعمدة كل منها إلى 1.
النتائج:
- تقليل عدم الاستقرار بمقدار 3000x إلى 1.6x
- الاستقرار مضمونه بالرياضيات، وليس بالحظ
- فقط 6.7٪ من تكاليف التدريب الإضافية
لا حيل أو حيل للحيلة. مجرد رياضيات.
لقد شاركت رابط الورقة في التغريدة القادمة.

ورق:
306
الأفضل
المُتصدِّرة
التطبيقات المفضلة
