المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Alexander Long
مؤسس @PluralisHQ | ML دكتوراه
تعلم البروتوكول: نموذج متعدد المشاركين وعرض النطاق الترددي المنخفض متوازي
هذا مجنون نوعا ما

Pluralis Researchمنذ 21 ساعةً
نتائج NeurIPS خارجة. لدى Pluralis ثلاث أوراق مقبولة. الأول هو نتيجة البحث الأساسية التي تعمل حاليا على تشغيل عقدة التشغيل المفتوحة قبل التدريب 7.5 مليار 0. الاثنان الثانيان هما أيضا نتيجتان رئيسيتان سندمجهما في الجولات اللاحقة. هذا مع فريق صغير من <10 أشخاص ، يتم إجراؤه أثناء بناء node0.
1) شبكات الفضاء الفرعي: توسيع نطاق التدريب اللامركزي مع توازي نموذج فعال في الاتصالات: أدى تحجيم النماذج إلى تقدم كبير في التعلم العميق ، لكن تدريب هذه النماذج في البيئات اللامركزية لا يزال يمثل تحديا بسبب اختناقات الاتصالات. في حين أن تقنيات الضغط الحالية فعالة في البيانات المتوازية ، إلا أنها لا تمتد إلى توازي النموذج. على عكس التدريب المتوازي للبيانات ، حيث يتم تبادل تدرجات الوزن ، يتطلب النموذج المتوازي ضغط عمليات التنشيط وتدرجات التنشيط أثناء انتشارها عبر الطبقات ، مما يؤدي إلى تراكم أخطاء الضغط. نقترح خوارزمية ضغط جديدة تضغط على حد سواء التمريرات الأمامية والخلفية ، مما يتيح ضغطا يصل إلى 99٪ بدون تدهور تقارب مع ذاكرة / نفقات حساب ضئيلة. من خلال الاستفادة من الهيكل المتكرر في شبكات المحولات ، فإننا نحدد مسبقا مساحة فرعية منخفضة الأبعاد لحصر عمليات التنشيط والتدرجات ، مما يسمح بإعادة البناء الكامل في الطبقات اللاحقة. تحقق طريقتنا تحسنا يصل إلى 100 مرة في كفاءة الاتصال وتمكن من تدريب نماذج بمقياس مليار معلمة على وحدات معالجة الرسومات منخفضة الجودة متصلة عبر سرعات إنترنت منخفضة تصل إلى 80 ميجابت في الثانية ، مما يتوافق مع تقارب أنظمة مراكز البيانات المركزية مع اتصالات 100 جيجابت في الثانية مع نموذج متوازي.
2) مزيج من المساحات الفرعية للتدريب الموازي للسياق الفعال للعرض الترددي: تعزز نماذج اللغة للتدريب المسبق مع نوافذ السياق الممتدة قدرتها على الاستفادة من المعلومات الغنية أثناء التوليد. تقوم الطرق الحالية بتقسيم تسلسلات الإدخال إلى أجزاء ، وبثها عبر أجهزة متعددة ، وحساب كتلة الانتباه تلو الأخرى التي تتحمل نفقات اتصال كبيرة. على الرغم من أن هذه الأساليب ممكنة في المجموعات عالية السرعة ، إلا أنها غير عملية للتدريب اللامركزي عبر اتصالات النطاق الترددي المنخفض. نقترح طريقة ضغط لتوازي السياق الفعال للاتصال في البيئات اللامركزية ، مما يحقق معدل ضغط ملحوظ يزيد عن 95٪ مع نفقات عامة ضئيلة وعدم فقدان التقارب. تتمثل رؤيتنا الرئيسية في استغلال الهيكل الجوهري منخفض الرتبة لمخرجات التنشيط من خلال تقييدها ديناميكيا بمزيج من المساحات الفرعية المكتسبة عبر عمليات إعادة المعلمات الفعالة. نوضح توسيع نطاق النماذج اللامركزية المكونة من مليار معلمة إلى أطوال سياق تتجاوز 100 ألف رمز على شبكات بطيئة تصل إلى 300 ميجابت في الثانية ، مما يتوافق مع سرعة تقارب ساعة الحائط للنماذج المركزية على التوصيلات البينية بسرعة 100 جيجابت في الثانية.
3) نماذج البروتوكول غير القابلة للاستخراج: التدريب التعاوني والاستدلال دون تجسيد الوزن:
نحن نعتبر إعداد تدريب لامركزي يقوم فيه المشاركون بتدريب وخدمة شبكة عصبية كبيرة بشكل تعاوني ، وحيث يعالج كل مشارك مجموعة فرعية فقط من النموذج. في هذا الإعداد ، نستكشف إمكانية الأوزان غير القابلة للتحقق ، حيث لا تتوفر مجموعة الوزن الكامل لأي مشارك واحد. نقدم نماذج البروتوكول غير القابلة للاستخراج (UPMs): إطار عمل للتدريب والاستدلال يستفيد من إعداد النموذج المجزأ لضمان عدم توافق شظايا النموذج (أي المجموعات الفرعية) التي يحتفظ بها المشاركون في خطوات زمنية مختلفة. تقوم UPMs بشكل دوري بحقن تحويلات عشوائية وقابلة للانعكاس متفاوتة بالوقت عند حدود المشاركين. الحفاظ على وظيفة الشبكة الإجمالية مع جعل التجميعات عبر الوقت غير متماسكة. في Qwen-2.5-0.5B و Llama-3.2-1B ، يترك 10 000 تحويل حيرة FP 32 دون تغيير (انجراف PPL Jensen-Shannon). يضيف تطبيق التحويل كل 30 ثانية زمن انتقال بنسبة 3٪ ، وعرض نطاق ترددي بنسبة 0.1٪ ، ونفقات ذاكرة وحدة معالجة الرسومات بنسبة 10٪ عند الاستدلال ، بينما تنخفض النفقات العامة للتدريب إلى 1.6٪ من الوقت و < 1٪ من الذاكرة. نحن نعتبر العديد من الهجمات ، مما يدل على أن متطلبات الهجمات المباشرة غير عملية وسهلة الدفاع ضدها ، وأن الضبط الدقيق القائم على التدرج للأقسام المخيطة يستهلك الرموز المطلوبة للتدريب من البداية. من خلال تمكين النماذج من التدريب التعاوني ولكن ليس استخراجها ، تجعل UPMs من العملي تضمين آليات الحوافز البرنامجية في التدريب اللامركزي الذي يقوده المجتمع.
17
الأفضل
المُتصدِّرة
التطبيقات المفضلة