GLM-5 is het nieuwe leidende model met open gewichten! GLM-5 leidt de Artificial Analysis Intelligence Index onder modellen met open gewichten en maakt grote sprongen ten opzichte van GLM-4.7 in GDPval-AA, onze agentische benchmark gericht op economisch waardevolle werktaken. GLM-5 is de eerste nieuwe architectuur van @Zai_org sinds GLM-4.5 - elk van de modellen GLM-4.5, 4.6 en 4.7 had een totaal van 355B / 32B actieve parameter mengmodellen. GLM-5 schaalt naar 744B totaal / 40B actief en integreert DeepSeek Sparse Attention. Dit plaatst GLM-5 meer in lijn met het aantal parameters van de DeepSeek V3-familie (671B totaal / 37B actief) en de Kimi K2-familie van Moonshot (1T totaal, 32B actief). GLM-5 wordt echter uitgebracht in BF16-precisie, met een totale grootte van ~1,5TB - groter dan DeepSeek V3 en recente Kimi K2-modellen die respectievelijk in FP8 en INT4-precisie zijn uitgebracht. Belangrijke punten: ➤ GLM-5 scoort 50 op de Intelligence Index en is de nieuwe leider met open gewichten, omhoog van GLM-4.7's score van 42 - een sprongetje van 8 punten gedreven door verbeteringen in agentische prestaties en kennis/hallucinatie. Dit is de eerste keer dat een model met open gewichten een score van 50 of hoger heeft behaald op de Artificial Analysis Intelligence Index v4.0, wat een significante sluiting van de kloof tussen propriëtaire en open gewichten modellen vertegenwoordigt. Het plaatst boven andere grensmodellen met open gewichten zoals Kimi K2.5, MiniMax 2.1 en DeepSeek V3.2. ➤ GLM-5 behaalt de hoogste score op de Artificial Analysis Agentic Index onder modellen met open gewichten met een score van 63, wat de derde plaats overall betekent. Dit wordt gedreven door sterke prestaties in GDPval-AA, onze primaire maatstaf voor algemene agentische prestaties op kenniswerk taken van het voorbereiden van presentaties en data-analyse tot videobewerking. GLM-5 heeft een GDPval-AA ELO van 1412, alleen onder Claude Opus 4.6 en GPT-5.2 (xhigh). GLM-5 vertegenwoordigt een significante verbetering in de prestaties van modellen met open gewichten op economisch waardevolle werktaken in de echte wereld. ➤ GLM-5 toont een grote verbetering op de AA-Omniscience Index, gedreven door verminderde hallucinatie. GLM-5 scoort -1 op de AA-Omniscience Index - een verbetering van 35 punten vergeleken met GLM-4.7 (Redeneren, -36). Dit wordt gedreven door een vermindering van 56 p.p. in de hallucinatiegraad vergeleken met GLM-4.7 (Redeneren). GLM-5 bereikt dit door vaker te onthouden en heeft het laagste niveau van hallucinatie onder de geteste modellen. ➤ GLM-5 gebruikte ~110M outputtokens om de Intelligence Index te draaien, vergeleken met GLM-4.7's ~170M outputtokens, een significante afname ondanks hogere scores in de meeste evaluaties. Dit duwt GLM-5 dichter naar de grens van de Intelligence vs. Output Tokens-grafiek, maar is minder token efficiënt vergeleken met Opus 4.6. Belangrijke modelgegevens: ➤ Contextvenster: 200K tokens, gelijk aan GLM-4.7. Multimodaliteit: Alleen tekstinvoer en -uitvoer - Kimi K2.5 blijft het leidende model met open gewichten dat beeldinvoer ondersteunt. ➤ Grootte: 744B totale parameters, 40B actieve parameters. Voor zelfimplementatie vereist GLM-5 ~1.490GB geheugen om de gewichten op te slaan in de native BF16-precisie. ➤ Licentie: MIT License. Beschikbaarheid: Op het moment van delen van deze analyse is GLM-5 beschikbaar op Z AI's eerste partij API en verschillende derde partij API's zoals @novita_labs ($1/$3.2 per 1M input/output tokens), @gmi_cloud ($1/$3.2) en @DeepInfra ($0.8/$2.56), in FP8-precisie. ➤ Trainingstokens: Z AI heeft ook aangegeven dat het het volume van de pre-trainingsdata heeft verhoogd van 23T naar 28,5T tokens.
GLM-5 toont verbetering in de AA-Omniscience Index, aangedreven door lagere hallucinaties. Dit betekent dat het model zich meer onthoudt van het beantwoorden van vragen die het niet weet
Uiteenzetting van de volledige resultaten
GLM-5 HuggingFace-repository: Voor meer informatie, bezoek:
14,03K