GLM-5 ist das neue führende Modell mit offenen Gewichten! GLM-5 führt den Artificial Analysis Intelligence Index unter den Modellen mit offenen Gewichten an und erzielt große Fortschritte gegenüber GLM-4.7 im GDPval-AA, unserem agentischen Benchmark, der sich auf wirtschaftlich wertvolle Arbeitsaufgaben konzentriert. GLM-5 ist die erste neue Architektur von @Zai_org seit GLM-4.5 - jedes der Modelle GLM-4.5, 4.6 und 4.7 hatte 355B insgesamt / 32B aktive Parameter in einer Mischung aus Expertenmodellen. GLM-5 skaliert auf 744B insgesamt / 40B aktiv und integriert DeepSeek Sparse Attention. Dies bringt GLM-5 näher an die Parameteranzahl der DeepSeek V3-Familie (671B insgesamt / 37B aktiv) und der Moonshot Kimi K2-Familie (1T insgesamt, 32B aktiv). GLM-5 wird jedoch in BF16-Präzision veröffentlicht und hat eine Gesamtgröße von ~1,5TB - größer als DeepSeek V3 und die kürzlich veröffentlichten Kimi K2-Modelle, die nativ in FP8 und INT4-Präzision veröffentlicht wurden. Wichtige Erkenntnisse: ➤ GLM-5 erzielt 50 im Intelligence Index und ist der neue Führer bei offenen Gewichten, ein Anstieg von GLM-4.7's Punktzahl von 42 - ein Anstieg um 8 Punkte, der durch Verbesserungen in der agentischen Leistung und Wissen/Halluzinationen vorangetrieben wird. Dies ist das erste Mal, dass ein Modell mit offenen Gewichten eine Punktzahl von 50 oder mehr im Artificial Analysis Intelligence Index v4.0 erreicht hat, was eine signifikante Schließung der Lücke zwischen proprietären und offenen Gewichten-Modellen darstellt. Es liegt über anderen fortschrittlichen Modellen mit offenen Gewichten wie Kimi K2.5, MiniMax 2.1 und DeepSeek V3.2. ➤ GLM-5 erreicht die höchste Punktzahl im Artificial Analysis Agentic Index unter den Modellen mit offenen Gewichten mit einer Punktzahl von 63 und belegt insgesamt den dritten Platz. Dies wird durch starke Leistungen im GDPval-AA, unserem primären Maß für die allgemeine agentische Leistung bei Wissensarbeitsaufgaben, von der Vorbereitung von Präsentationen und Datenanalysen bis hin zur Videobearbeitung, vorangetrieben. GLM-5 hat ein GDPval-AA ELO von 1412, nur unter Claude Opus 4.6 und GPT-5.2 (xhigh). GLM-5 stellt einen signifikanten Anstieg der Leistung von Modellen mit offenen Gewichten bei realen wirtschaftlich wertvollen Arbeitsaufgaben dar. ➤ GLM-5 zeigt eine große Verbesserung im AA-Omniscience Index, die durch reduzierte Halluzinationen vorangetrieben wird. GLM-5 erzielt -1 im AA-Omniscience Index - eine Verbesserung um 35 Punkte im Vergleich zu GLM-4.7 (Reasoning, -36). Dies wird durch eine Reduktion der Halluzinationsrate um 56 Prozentpunkte im Vergleich zu GLM-4.7 (Reasoning) erreicht. GLM-5 erreicht dies, indem es häufiger auf Abstinenz setzt und die niedrigste Halluzinationsrate unter den getesteten Modellen hat. ➤ GLM-5 verwendete ~110M Ausgabetokens, um den Intelligence Index zu berechnen, im Vergleich zu GLM-4.7's ~170M Ausgabetokens, was einen signifikanten Rückgang darstellt, trotz höherer Punktzahlen in den meisten Bewertungen. Dies bringt GLM-5 näher an die Grenze des Diagramms Intelligence vs. Output Tokens, ist jedoch weniger token-effizient im Vergleich zu Opus 4.6. Wichtige Modellinformationen: ➤ Kontextfenster: 200K Tokens, entspricht GLM-4.7. Multimodalität: Nur Texteingabe und -ausgabe - Kimi K2.5 bleibt das führende Modell mit offenen Gewichten, das die Eingabe von Bildern unterstützt. ➤ Größe: 744B Gesamtparameter, 40B aktive Parameter. Für die Selbstbereitstellung benötigt GLM-5 ~1.490GB Speicher, um die Gewichte in nativer BF16-Präzision zu speichern. ➤ Lizenzierung: MIT-Lizenz. Verfügbarkeit: Zum Zeitpunkt der Veröffentlichung dieser Analyse ist GLM-5 über die First-Party-API von Z AI und mehrere Drittanbieter-APIs wie @novita_labs ($1/$3.2 pro 1M Eingabe/Ausgabe-Tokens), @gmi_cloud ($1/$3.2) und @DeepInfra ($0.8/$2.56) in FP8-Präzision verfügbar. ➤ Trainings-Tokens: Z AI hat auch angegeben, dass das Volumen der Vortrainingsdaten von 23T auf 28,5T Tokens erhöht wurde.
GLM-5 zeigt Verbesserungen im AA-Omniscience-Index, bedingt durch geringere Halluzinationen. Das bedeutet, dass das Modell mehr davon absieht, Fragen zu beantworten, die es nicht kennt.
Aufschlüsselung der vollständigen Ergebnisse
GLM-5 HuggingFace-Repository: Für weitere Informationen besuchen Sie:
13,99K