نعلن عن cline-bench، وهو معيار مفتوح المصدر في العالم الحقيقي للبرمجة الوكائلية. كلاين-بنش مبني على مهام هندسية واقعية من مطورين مشاركين، حيث فشلت نماذج Frontier واضطر البشر للتدخل. كل مهمة مقبولة تصبح بيئة RL قابلة لإعادة إنتاج كاملة مع لقطة مستودعات ابتدائية، وطلب حقيقي، واختبارات حقيقة أرضية من الكود الذي تم شحنه في النهاية. بالنسبة للمختبرات والباحثين، هذا يعني: > يمكنك تقييم النماذج على أعمال هندسية حقيقية، وليس ألغاز leetcode. > تحصل على بيئات متوافقة مع Harbor وأدوات التقييم الحديثة للمقارنة جنبا إلى جنب. > يمكنك استخدام نفس المهام في SFT والتعلم المعزز بحيث يبقى التدريب والتقييم متجذرا على سير العمل الهندسي الحقيقي. اليوم نفتح المساهمات ونبدأ في جمع المهام من خلال مزود كلاين. المشاركة اختيارية ومقتصرة على مستودعات المصدر المفتوح. عندما تعيق مهمة صعبة نموذجا وتتدخل، يمكن تحويل هذا الفشل إلى بيئة موحدة يمكن للمجتمع بأكمله دراستها وتقييمها والتدريب عليها. إذا كنت تعمل على مشاكل مفتوحة المصدر الصعبة، خاصة برمجيات البرمجيات المفتوحة التجارية، أود أن أدعوك شخصيا للمساعدة. نحن نلتزم بمبلغ مليون دولار لرعاية مشغلي المصادر المفتوحة للمشاركة في مبادرة cline-bench. "كلاين-بنش مثال رائع على كيف يمكن للمعايير المفتوحة والواقعية أن تدفع النظام البيئي بأكمله إلى الأمام. مهام البرمجة عالية الجودة والتحقق منها والمبنية على سير عمل المطورين الفعلي هي بالضبط ما نحتاجه لقياس نماذج الحدود بشكل فعال، وكشف أوضاع الفشل، ودفع أحدث التقنيات." – @shyamalanadkat، رئيس التقييمات التطبيقية @OpenAI "يركز Nous Research على تدريب ونشر نماذج تتفوق في المهام الواقعية. سيكون كلاين-بنش أداة أساسية في جهودنا لتعظيم الأداء وفهم قدرات نماذجنا." – @Teknium، رئيس قسم التدريب بعد @nousresearch "نحن من المعجبين الكبار بكل ما قامت به كلاين لتمكين منظومة الذكاء الاصطناعي مفتوحة المصدر، ونحن متحمسون للغاية لدعم إصدار كلاين-بنش. البيئات المفتوحة عالية الجودة للترميز الوكيلي نادرة للغاية. سيقطع هذا الإصدار شوطا طويلا كتقييم للقدرات وكمنصة اختبار بعد التدريب للمهام الواقعية الصعبة، مما يعزز فهمنا الجماعي وقدراتنا حول تطوير البرمجيات الذاتية." – @willccbb، قائد البحث @PrimeIntellect: "نحن نشارك كلاين التزامه بالمصدر المفتوح ونؤمن بأن إتاحة هذا المعيار للجميع سيساعدنا على مواصلة دفع قدرات البرمجة المتقدمة لنماذج اللغة الكبيرة لدينا." – @b_roziere، عالم أبحاث @MistralAI: التفاصيل الكاملة موجودة في المدونة: