Het Institute of Foundation Models van MBZUAI heeft K2-V2 uitgebracht, een 70B redeneer model dat gelijk staat aan #1 in onze Openness Index, en is het eerste model op onze ranglijsten uit de VAE. 📖 Gelijkwaardige leider in Openheid: K2-V2 voegt zich bij OLMo 3 32B Think aan de top van de Artificial Analysis Openness Index - onze onlangs vrijgegeven, gestandaardiseerde, onafhankelijk beoordeelde maatstaf voor de openheid van AI-modellen op het gebied van beschikbaarheid en transparantie. MBZUAI is verder gegaan dan open toegang en licentieverlening van de modelgewichten - ze bieden volledige toegang tot pre- en post-trainingsdata. Ze publiceren ook de trainingsmethodologie en code met een permissieve Apache-licentie die gratis gebruik voor elk doel toestaat. Dit maakt K2-V2 een waardevolle bijdrage aan de open source gemeenschap en stelt effectievere fine-tuning mogelijk. Zie de links hieronder! 🧠 Sterk middelgroot (40-150B) open gewichten model: Met 70B scoort K2-V2 46 op onze Intelligence Index met zijn Hoge redeneermodus. Dit plaatst het boven Llama Nemotron Super 49B v1.5 maar onder Qwen3 Next 80B A3B. Het model heeft een relatieve sterkte in instructie volgen met een score van 60% in IFBench. 🇦🇪 Eerste VAE-deelnemer op onze ranglijsten: In een zee van grotendeels Amerikaanse en Chinese modellen, steekt K2-V2 eruit als de eerste vertegenwoordiging van de VAE in onze ranglijsten, en de tweede deelnemer uit het Midden-Oosten na de AI21-labs van Israël. K2-V2 is het eerste MBZUAI-model dat we hebben beoordeeld, maar het lab heeft eerder modellen uitgebracht met een bijzondere focus op taalrepresentatie, waaronder Egyptisch Arabisch en Hindi. 📊 Lagere redeneermodi verminderen tokengebruik & hallucinatie: K2-V2 heeft 3 redeneermodi, waarbij de Hoge redeneermodus een aanzienlijke ~130M tokens gebruikt om onze Intelligence Index te voltooien. De Medium-modus vermindert echter het tokengebruik met ~6x met slechts een daling van 6 punten in onze Intelligence Index. Interessant is dat lagere redeneermodi beter scoren in onze kennis- en hallucinatie-index, AA-Omniscience, vanwege een verminderde neiging om te hallucineren.
K2-V2 is een verbonden leider in Openheid en bevindt zich op de Pareto Frontier van Openheid versus Intelligentie
Het model presteert sterk onder middelgrote (40-150B parameters) open gewichten modellen
De Hoge redeneermodus heeft een aanzienlijk tokenverbruik, maar Medium vermindert het tokenverbruik met ~6x met slechts een daling van 6 punten in onze Intelligentie-index.
Lagere redeneermodi presteren beter in de Artificial Analysis Omniscience Index, omdat ze minder hallucineren
Individuele benchmarkresultaten. Alle benchmarks zijn vergelijkbaar uitgevoerd tussen de modellen en onafhankelijk.
Verdere analyse over Kunstmatige Analyse: HuggingFace 🤗 link inclusief gewichten, data, trainingscode en technisch rapport:
Berichten van MBZUAI en IFM:
34,59K