Das Institut für Fundamentale Modelle von MBZUAI hat K2-V2 veröffentlicht, ein 70B-Reasoning-Modell, das den ersten Platz in unserem Openness-Index belegt, und ist das erste Modell auf unseren Bestenlisten aus den VAE. 📖 Geteilte Führung in der Offenheit: K2-V2 reiht sich zusammen mit OLMo 3 32B Think an die Spitze des Artificial Analysis Openness Index - unserem neu veröffentlichten, standardisierten, unabhängig bewerteten Maß für die Offenheit von KI-Modellen hinsichtlich Verfügbarkeit und Transparenz. MBZUAI hat über den offenen Zugang und die Lizenzierung der Modellgewichte hinausgegangen - sie bieten vollen Zugang zu Vor- und Nachtrainingsdaten. Sie veröffentlichen auch die Trainingsmethodik und den Code mit einer permissiven Apache-Lizenz, die die kostenlose Nutzung für jeden Zweck erlaubt. Dies macht K2-V2 zu einem wertvollen Beitrag zur Open-Source-Community und ermöglicht eine effektivere Feinabstimmung. Siehe Links unten! 🧠 Starkes mittelgroßes (40-150B) Modell mit offenen Gewichten: Mit 70B erzielt K2-V2 46 in unserem Intelligence Index mit seinem High-Reasoning-Modus. Das platziert es über Llama Nemotron Super 49B v1.5, aber unter Qwen3 Next 80B A3B. Das Modell hat eine relative Stärke im Befolgen von Anweisungen mit einem Wert von 60% in IFBench. 🇦🇪 Erster VAE-Teilnehmer auf unseren Bestenlisten: In einem Meer von überwiegend US-amerikanischen und chinesischen Modellen sticht K2-V2 als erste Vertretung der VAE in unseren Bestenlisten hervor und ist der zweite Teilnehmer aus dem Nahen Osten nach den AI21-Labors in Israel. K2-V2 ist das erste MBZUAI-Modell, das wir bewertet haben, aber das Labor hat zuvor Modelle mit einem besonderen Fokus auf Sprachrepräsentation veröffentlicht, einschließlich ägyptischem Arabisch und Hindi. 📊 Niedrigere Reasoning-Modi reduzieren den Tokenverbrauch & Halluzinationen: K2-V2 hat 3 Reasoning-Modi, wobei der High-Reasoning-Modus etwa ~130M Tokens benötigt, um unseren Intelligence Index abzuschließen. Der Medium-Modus reduziert jedoch den Tokenverbrauch um ~6x mit nur einem Rückgang von 6 Punkten in unserem Intelligence Index. Interessanterweise erzielen niedrigere Reasoning-Modi bessere Ergebnisse in unserem Wissens- und Halluzinationsindex, AA-Omniscience, aufgrund einer reduzierten Tendenz zu Halluzinationen.
K2-V2 ist ein gebundener Führer in der Offenheit und befindet sich an der Pareto-Frontier von Offenheit vs. Intelligenz
Das Modell zeigt eine starke Leistung bei mittelgroßen (40-150B Parameter) offenen Gewichtsmodellen
Der Hochrechnungsmodus hat einen erheblichen Tokenverbrauch, aber Medium reduziert den Tokenverbrauch um ~6x bei nur einem Rückgang von 6 Punkten in unserem Intelligenzindex.
Niedrigere Denkmodi schneiden im Artificial Analysis Omniscience Index besser ab, da sie weniger halluzinieren.
Individuelle Benchmark-Ergebnisse. Alle Benchmarks wurden modellübergreifend und unabhängig durchgeführt.
Weitere Analysen zur Künstlichen Analyse: HuggingFace 🤗 Link einschließlich Gewichte, Daten, Trainingscode und technischem Bericht:
Beiträge von MBZUAI und IFM:
34,41K