تحديث لوحة المتصدرين GDPval-AA: GLM-4.7 هو القائد الجديد في الأوزان المفتوحة بتصنيف ELO 1224، وMiniMax M2.1 يحقق تحسينات كبيرة مقارنة ب M2 يقارن GDPval-AA مخرجات النماذج في مهام عمل معرفية واقعية مثل إعداد العروض التقديمية، والتحليل، والمزيد باستخدام بيئة طرفية مخصصة ووصول إلى الويب. ثم تقارن نتائج العمل مع بعضها البعض وتقيم عبر خط أنابيب آلي لتوليد التطابقات ودرجات ELO. ➤ GLM-4.7 من @Zai_org يحقق ELO يبلغ 1224، خلف GPT-5.1 (الأعلى) بقليل وزيادة ~170 نقطة مقارنة ب GLM-4.6. هذا يعني أننا نتوقع أن تتفوق مخرجات GLM-4.7 على GLM-4.6 بنسبة 73٪ من الوقت عند مقارنتها مباشرة. ➤ @MiniMax__ الذكاء الاصطناعي أظهر أيضا تحسنا في GDPval-AA مع إصداره ل M2.1، حيث زاد ELO بمقدار +56 نقطة مقارنة بالنموذج السابق M2 لكنه لا يزال بين GLM-4.6 وGPT-5.1 Codex (عالي).
لوحة المتصدرين GDPval-AA: مقارنة التحليل الاصطناعي لمزودي واجهة برمجة التطبيقات بدون خادم GLM-4.7: مقارنة التحليل الاصطناعي لمزودي واجهة برمجة التطبيقات بدون خادم في MiniMax M2.1:
‏‎2.92‏K