متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

يمكن لنانوشات الآن تدريب نموذج لغوي كبير من فئة GPT-2 مقابل <<$100 (~73$، 3 ساعات على عقدة 8XH100 واحدة). GPT-2 هو نموذج اللغة الكبير المفضل لدي لأنه المرة الأولى التي تتكامل فيها نماذج اللغة الكبيرة بشكل حديث وواضح. لذا أصبح من الهوس الغريب والدائم بالنسبة لي أن أدرب نموذجا على قدرة GPT-2 ولكن بتكلفة أقل بكثير، مع فائدة ~7 سنوات من التقدم. على وجه الخصوص، كنت أظن أنه من الممكن اليوم تدريب واحد مقابل 100 دولار <<. في الأصل في عام 2019، تم تدريب GPT-2 من قبل OpenAI على 32 شريحة TPU v3 لمدة 168 ساعة (7 أيام)، مع 8 دولارات في الساعة لكل TPUv3 آنذاك، بتكلفة إجمالية تقارب 43 ألف دولار. يحقق درجة CORE تبلغ 0.256525، وهي مقياس جماعي تم تقديمه في ورقة DCLM عبر 22 تقييما مثل ARC/MMLU/وغيرها. من التحسينات الأخيرة التي تم دمجها في nanochat (العديد منها نشأ في مستودع nanoGPT المعدل)، يمكنني الآن تحقيق درجة CORE أعلى خلال 3.04 ساعات (~$73) على عقدة 8XH100 واحدة. هذا يعني تخفيض التكلفة بمقدار 600 ضعف خلال 7 سنوات، أي أن تكلفة تدريب GPT-2 تنخفض بحوالي 2.5 مرة كل عام. أعتقد أن هذا ربما أقل تقديرا لأنني ما زلت أجد المزيد من التحسينات بشكل منتظم ولدي تراكم من الأفكار لتجربتها. منشور أطول يحتوي على الكثير من تفاصيل التحسينات المعنية ونصائح حول كيفية التكاثر هنا: مستوحى من تعديل nanoGPT، أنشأت أيضا لوحة متصدرين ل "وقت GPT-2"، حيث يكون هذا النموذج الأول "Jan29" هو الإدخال #1 عند الساعة 3.04. سيكون من الممتع تطوير هذا أكثر وأرحب بالمساعدة! آملي أن ينمو nanochat ليصبح حزمة نماذج لغوية تجريبية ونظيفة ومضبوطة لتصميم الأفكار الأولية، وللاستمتاع، وبالطبع للتعلم. أكبر التحسينات التي عملت من البداية وحققت مكاسب مباشرة كانت: 1) Flash Attention 3 نوى (أسرع، وتسمح window_size kwarg بالحصول على أنماط انتباه متناوبة)، Muon Optimizer (حاولت ~1 يوما حذفه واستخدمت AdamW فقط ولم أستطع)، المسارات المتبقية وتخطي الاتصالات التي تحدد بواسطة سكانات قابلة للتعلم، وتضمينات القيمة. كانت هناك العديد من الأمور الصغيرة الأخرى التي تتراكم. صورة: متعة بصرية شبه مرتبطة بكيفية اشتقاق قوانين القياس لسلسلة نماذج النانو شات المصغرة الحالية، جميلة ومرضية!

الأفضل

المُتصدِّرة

التطبيقات المفضلة