Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GLM-5 è il nuovo modello leader con pesi aperti! GLM-5 guida l'Indice di Intelligenza dell'Analisi Artificiale tra i modelli a pesi aperti e fa grandi progressi rispetto a GLM-4.7 in GDPval-AA, il nostro benchmark agentico focalizzato su compiti lavorativi di valore economico.
GLM-5 è la prima nuova architettura di @Zai_org da GLM-4.5 - ciascuno dei modelli GLM-4.5, 4.6 e 4.7 era un modello di esperti a miscela di 355B totali / 32B di parametri attivi. GLM-5 scala a 744B totali / 40B attivi e integra l'Attenzione Sparsa DeepSeek. Questo pone GLM-5 più in linea con il conteggio dei parametri della famiglia DeepSeek V3 (671B totali / 37B attivi) e della famiglia Kimi K2 di Moonshot (1T totali, 32B attivi). Tuttavia, GLM-5 è rilasciato in precisione BF16, con una dimensione totale di ~1.5TB - più grande dei modelli DeepSeek V3 e Kimi K2 recenti che sono stati rilasciati nativamente in precisione FP8 e INT4 rispettivamente.
Punti chiave:
➤ GLM-5 ottiene 50 nell'Indice di Intelligenza ed è il nuovo leader dei pesi aperti, in aumento rispetto al punteggio di 42 di GLM-4.7 - un salto di 8 punti guidato da miglioramenti nelle prestazioni agentiche e nella conoscenza/allucinazione. Questa è la prima volta che un modello a pesi aperti ha raggiunto un punteggio di 50 o superiore nell'Indice di Intelligenza dell'Analisi Artificiale v4.0, rappresentando una significativa chiusura del divario tra modelli proprietari e a pesi aperti. Si posiziona sopra altri modelli a pesi aperti di frontiera come Kimi K2.5, MiniMax 2.1 e DeepSeek V3.2.
➤ GLM-5 ottiene il punteggio più alto nell'Indice di Intelligenza Agentica dell'Analisi Artificiale tra i modelli a pesi aperti con un punteggio di 63, classificandosi terzo in generale. Questo è guidato da forti prestazioni in GDPval-AA, il nostro principale indicatore per le prestazioni agentiche generali su compiti di lavoro conoscitivo, dalla preparazione di presentazioni e analisi dei dati fino al montaggio video. GLM-5 ha un ELO GDPval-AA di 1412, solo sotto Claude Opus 4.6 e GPT-5.2 (xhigh). GLM-5 rappresenta un significativo miglioramento nelle prestazioni dei modelli a pesi aperti su compiti lavorativi di valore economico nel mondo reale.
➤ GLM-5 mostra un grande miglioramento nell'Indice AA-Omniscience, guidato dalla riduzione dell'allucinazione. GLM-5 ottiene -1 nell'Indice AA-Omniscience - un miglioramento di 35 punti rispetto a GLM-4.7 (Ragionamento, -36). Questo è guidato da una riduzione di 56 p.p. nel tasso di allucinazione rispetto a GLM-4.7 (Ragionamento). GLM-5 ottiene questo astenendosi più frequentemente e ha il livello più basso di allucinazione tra i modelli testati.
➤ GLM-5 ha utilizzato ~110M di token di output per eseguire l'Indice di Intelligenza, rispetto ai ~170M di token di output di GLM-4.7, una significativa diminuzione nonostante punteggi più alti nella maggior parte delle valutazioni. Questo avvicina GLM-5 alla frontiera del grafico Intelligenza vs. Token di Output, ma è meno efficiente in termini di token rispetto a Opus 4.6.
Dettagli chiave del modello:
➤ Finestra di contesto: 200K token, equivalente a GLM-4.7.
Multimodalità: Solo input e output di testo - Kimi K2.5 rimane il modello a pesi aperti leader per supportare l'input di immagini.
➤ Dimensioni: 744B di parametri totali, 40B di parametri attivi. Per l'auto-deploy, GLM-5 richiederà ~1.490GB di memoria per memorizzare i pesi in precisione BF16 nativa.
➤ Licenza: Licenza MIT.
Disponibilità: Al momento della condivisione di questa analisi, GLM-5 è disponibile sull'API di prima parte di Z AI e su diverse API di terze parti come @novita_labs ($1/$3.2 per 1M di token di input/output), @gmi_cloud ($1/$3.2) e @DeepInfra ($0.8/$2.56), in precisione FP8.
➤ Token di addestramento: Z AI ha anche indicato di aver aumentato il volume dei dati di pre-addestramento da 23T a 28.5T token.

GLM-5 dimostra un miglioramento nell'Indice AA-Omniscience, grazie a una minore allucinazione. Ciò significa che il modello si astiene di più dal rispondere a domande che non conosce

Analisi dei risultati completi

Repository GLM-5 di HuggingFace:
Per ulteriori informazioni visita:
13,88K
Principali
Ranking
Preferiti
