أطلق معهد نماذج الأساس في MBZUAI نموذج K2-V2، وهو نموذج منطقي 70B مرتبط بالمركز #1 في مؤشر الانفتاح لدينا، وهو أول نموذج في قوائم المتصدرين لدينا من الإمارات العربية المتحدة 📖 متشابه في الصدارة في الانفتاح: ينضم K2-V2 إلى OLMo 3 32B في قمة مؤشر الانفتاح للتحليل الاصطناعي - مقياسنا القياسي الجديد والمعياري والمستقل لمدى انفتاح نماذج الذكاء الاصطناعي عبر التوافر والشفافية. تجاوز MBZUAI الوصول المفتوح وترخيص أوزان النماذج - حيث يوفر وصولا كاملا إلى بيانات ما قبل وبعد التدريب. كما ينشرون منهجية التدريب والشيفرة مع ترخيص Apache متساهل يسمح بالاستخدام المجاني لأي غرض. هذا يجعل K2-V2 مساهمة قيمة في مجتمع المصادر المفتوحة ويسمح بضبط أكثر فعالية. انظر الروابط أدناه! 🧠 نموذج الأوزان المفتوحة القوي متوسط الحجم (40-150B): عند 70B، يحصل K2-V2 على تقييم 46 في مؤشر الذكاء لدينا مع وضع التفكير العالي. هذا يضعه فوق Llama Nemotron Super 49B v1.5 ولكن تحت Qwen3 Next 80B A3B. يتمتع النموذج بقوة نسبية في متابعة التعليمات مع درجة 60٪ في IFBench 🇦🇪 أول مشاركة إماراتية في لوحات المتصدرين لدينا: في بحر من الطرازات الأمريكية والصينية في الغالب، تبرز K2-V2 كأول ممثل للإمارات في لوحات المتصدرين لدينا، وثاني مشاركة من الشرق الأوسط بعد مختبرات AI21 الإسرائيلية. K2-V2 هو أول نموذج MBZUAI نقوم باختباره، لكن المختبر سبق أن أطلق نماذج تركز بشكل خاص على تمثيل اللغات بما في ذلك العربية المصرية والهندية 📊 أنماط التفكير الأدنى تقلل من استخدام الرموز والهلوسة: لدى K2-V2 ثلاثة أوضاع تفكير، بينما يستخدم وضع التفكير العالي ~130 مليون رمز كبير لإكمال مؤشر الذكاء لدينا. ومع ذلك، يقلل وضع المتوسط من استخدام الرموز بمقدار ~6 مرات مع انخفاض 6 نقاط فقط في مؤشر الذكاء لدينا. ومن المثير للاهتمام أن أنماط التفكير الأقل درجات أفضل في مؤشر معرفتنا والهلوسة، AA-العلم المطلق، بسبب انخفاض الميل للهلوسة
K2-V2 هو رائد متساوي في الانفتاح، ويقع على حدود باريتو بين الانفتاح والذكاء
يتمتع النموذج بأداء قوي بين النماذج ذات الأوزان المفتوحة متوسطة الحجم (40-150 مليار مترات)
وضع الاستدلال العالي يستخدم الرموز بشكل كبير، لكن وضع المتوسط يقلل من استخدام الرموز بمقدار ~6 أضعاف مع انخفاض 6 نقاط فقط في مؤشر الذكاء لدينا
أنماط التفكير الأقل أداء أفضل في مؤشر التحليل الاصطناعي للعلم الشامل، لأنها تهلوس أقل
النتائج المعيارية الفردية. تم تشغيل جميع المعايير بشكل مماثل عبر النماذج وبشكل مستقل
مزيد من التحليل الصناعي: رابط HuggingFace 🤗 يتضمن الأوزان، البيانات، رمز التدريب، والتقرير الفني:
منشورات من MBZUAI وIFM:
‏‎34.41‏K