المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Pluralis Research
تعلم البروتوكول
Pluralis Research أعاد النشر
ربما يكون أكبر أسبوع في التدريب اللامركزي حتى تاريخ الخروج من ICLR والمزيد على وشك الخروج. ملخص الوضع كما هو اليوم:
1. من الواضح أن التدريب اللامركزي RL بعد التدريب. @gensynai الأحدث بنتائج رائعة هنا. تأخذ هذه العملية نموذجا أساسيا قويا ، وتعطي نسخا للمشاركين الذين يولدون آثار التفكير التي يتم جمعها بعد ذلك واستخدامها لتحسين النموذج الأساسي. من الواضح أن هذا يعتمد على توفر النماذج الأساسية / الوزن المفتوح ، وهو أرخص بكثير من التدريب المسبق. تحتاج العقد فقط إلى إجراء الاستدلال. العيب هو أن هناك أدلة متزايدة (وهي بديهية للغاية) على أنه لا يمكن أن تشق طريقك إلى ما بعد نموذج أساسي سيء. لذلك تحتفظ بالتبعية. نحن بحاجة إلى انتظار نتائج هذه الجولات ، لكن الحقيقة هي أن هذا سينجح بطريقة أو بأخرى لأن العملية متوازية بشكل تافه للغاية.
2. يبدو التدريب المسبق للبيانات المتوازية (DP) جيدا. كل من @NousResearch و @PrimeIntellect لديها بالفعل نتائج هنا بأحجام نماذج بمقياس 10B. سيكون من السهل جدا (ولكنه مكلف بالنسبة لمشغلي العقدة) توسيع هذا إلى حالة 100B. هذا لأنه في DP ، تحتفظ كل عقدة بنسخة كاملة من النموذج ، لذلك تحتاج على سبيل المثال 8xh100s للتدريب بحجم 10b. لا يمكنك استخدام البطاقات الصغيرة. لذلك يمكنك فقط توسيع نطاق هذه التقنية عن طريق توسيع نطاق العقد والقيام بتدريب تعاوني عبر مراكز البيانات (على سبيل المثال ، تتكون كل عقدة من 100 H100 أو نحو ذلك ، وتقوم بتدريب >نموذج 100b). لديك أيضا مشكلة أن الجميع يرى نسخة كاملة من النموذج ، لذا ليس من الواضح كيفية تحقيق الدخل (التعلم البروتوكولي يحل هذا).
3. بدأ النموذج المتوازي (حيث يتم تقسيم النموذج نفسه على العقد - فكر في 1000 جهاز Macbook منفصل جغرافيا يدرب نموذج معلمة 100b ، حيث يحتوي كل جهاز على جزء صغير فقط من النموذج الإجمالي) في إظهار التلميحات الأولى إلى الممكن. لقد نشرنا (@PluralisHQ) ورقة "Beyond Top k" التي تضغط الاتصالات بين العقد بنسبة تزيد عن 90٪ ، بالإضافة إلى عملين آخرين يظهران أنه يمكنك استخدام أجهزة غير متجانسة في إعداد Pipeline Parallel (PP). لقد قبلنا أيضا طريقة Nesterov الخاصة بنا ل PP في ICML2025 ، والتي على حد علمي هي أول ورقة عن التدريب اللامركزي تم قبولها في مؤتمر الذكاء الاصطناعي رئيسي منذ ورقة SWARM الأصلية ، ويجب أن تساعد في تحفيز الاهتمام من دوائر الذكاء الاصطناعي السائدة.
هل تم حل النموذج اللامركزي المتوازي → لا. عرض النطاق الترددي للاتصال أسوأ بكثير مقارنة بمركز البيانات ، حتى 90٪ لا يكفي. نحتاج إلى الوصول إلى ضغط 300 ضعف تقريبا للوصول إلى التكافؤ مع التدريب المركزي. لا يزال هناك سؤال كبير عما إذا كان هذا ممكنا - فأنت تدمر الكثير من إشارة التدريب من خلال القيام بذلك. هذا هو تركيز Pluralis.
ومع ذلك ، ماذا يحدث إذا نجح هذا؟ لأول مرة ، يمكنك القيام بتدريب مسبق تعاوني حقيقي. لا يوجد اعتماد على deepseek أو Meta. يمكن للأفراد الجمع بين الحوسبة لإنشاء نماذج على هذا النطاق ، من البداية. نحصل على ابتكار فعلي يحركه المجتمع يحدث هنا بطريقة لم تكن موجودة حتى الآن. يمكن بعد ذلك استخدام التدريب اللامركزي القائم على RL لجعل هذه النماذج أفضل.
الحقيقة هي أننا في الأيام الأولى لشيء مهم للغاية يحدث هنا. سيكون هذا مجالا رئيسيا. تقوم الشركات المذكورة أعلاه بإطلاق النار على جميع الأسطوانات ، وهناك مجموعة أخرى على وشك الخروج من البوابة قريبا ، ولا أتوقع أن يتباطأ هذا على الإطلاق من الآن حتى يحدث كل ما يحدث. وإذا كنت تقرأ هذا ، فأنت مبكر.
14.21K
الأفضل
المُتصدِّرة
التطبيقات المفضلة
رائج على السلسة
رائج على منصة X
أهم عمليات التمويل الأخيرة
الأبرز