Aggiornamento della classifica GDPval-AA: GLM-4.7 è il nuovo leader con pesi aperti con un ELO di 1224, e MiniMax M2.1 apporta miglioramenti significativi rispetto a M2 GDPval-AA confronta i risultati dei modelli su compiti di lavoro conoscitivo realistici come la preparazione di presentazioni, analisi e altro utilizzando un ambiente terminale dedicato e accesso web. I risultati del lavoro vengono quindi confrontati tra loro e valutati con una pipeline automatizzata per generare partite e punteggi ELO. ➤ GLM-4.7 di @Zai_org raggiunge un ELO di 1224, posizionandosi appena dietro GPT-5.1 (alto) e un aumento di ~170 punti rispetto a GLM-4.6. Ciò significa che ci aspettiamo che i risultati di GLM-4.7 superino GLM-4.6 il 73% delle volte quando confrontati testa a testa. ➤ @MiniMax__AI ha mostrato anche miglioramenti su GDPval-AA con il rilascio di M2.1, aumentando l'ELO di +56 punti rispetto al precedente modello M2, ma rimanendo comunque tra GLM-4.6 e GPT-5.1 Codex (alto).
Classifica GDPval-AA: Confronto di Analisi Artificiale dei fornitori di API serverless GLM-4.7: Confronto di Analisi Artificiale dei fornitori di API serverless MiniMax M2.1:
2,82K