لدينا مشكلة جدية في الضبط الدقيق. أي شخص يحاول القيام ب SFT أو RL اليوم يجبر على أحد طرفين متطرفين: 1. واجهات برمجة تطبيقات "سهلة الاستخدام" تمنحك تقريبا أي تحكم في عملية التدريب. 2. جحيم كامل للبنية التحتية، حيث تتعامل مع نقاط التفتيش، وبطاقات الرسوميات الخام، وإعادة التشغيل، وتكاليف الخمول، والسباكة التي لا تنتهي. لا يوجد الكثير من الوسط. تحدثت مع بعض الفرق التي يجب أن تختار الأقل سوءا من هذين الطرفين. معظمهم ينفقون الكثير من المال على أشخاص يستطيعون التعامل مع البنية التحتية لأنهم لا يملكون خيارا آخر. إليك بديلا مختلفا: أصدر فريق HPC-الذكاء الاصطناعي للتو حزمة تطوير تطوير مميزة تمنحك تحكما كاملا في كود التدريب دون التعامل مع مشاكل البنية التحتية: • تحصل على وصفات SFT مخصصة • التعلم المعزز (RL) أو RLVR (التعلم المعزز مع مكافآت قابلة للتحقق) • يمكنك استخدام وظائف المكافأة الخاصة بك • يمكنك استخدام حلقات التدريب الخاصة بك هم يتولون كل شيء في جانب البنية التحتية: • لا يمكنك أبدا لمس إعدادات Kubernetes • لا تلمس جدولة المجموعات أبدا • لا يمكنك أبدا تعديل وحدة معالجة الرسومات • لا يمكنك أبدا لمس سباكة نقاط التفتيش الموزعة هذا يفتح المجال للتعديل الدقيق للفرق الأخرى. لم تعد مضطرا للاختيار بين "بسيط جدا ليكون مفيدا" و"معقد جدا لدرجة أنه كابوس." الفكرة الأساسية هنا بسيطة جدا: هذا النموذج يفصل تصميم الخوارزميات عن هندسة البنية التحتية. هناك شيء آخر: مع هذا النموذج، تدفع لكل رمز بدلا من استئجار وحدات معالجة الرسوميات بالساعة والتعامل مع مجموعات خاملة.
إذا أردت تجربة ذلك، يمكنك التسجيل باستخدام رمز شاركه الفريق معي (مدمج في الرابط أدناه): سيمنحك هذا الرمز قسائم مجانية بقيمة 10 دولارات (حوالي 1.5 مليون رمز) لأداء أول وظيفة تدريب لك. وهنا مستودع GitHub مع مجموعة تطوير البرمجيات: شكرا لفريق HPC-الذكاء الاصطناعي على شراكته معي في هذا المنشور.
‏‎425‏