Actualizare clasamentului GDPval-AA: GLM-4.7 este noul lider la greutăți deschise cu un ELO de 1224, iar MiniMax M2.1 aduce îmbunătățiri semnificative față de M2 GDPval-AA compară rezultatele modelelor pentru sarcini realiste de lucru în domeniul cunoașterii, cum ar fi pregătirea prezentărilor, analizei și altele, folosind un mediu terminal dedicat și acces web. Rezultatele muncii sunt apoi comparate între ele și evaluate printr-un pipeline automatizat pentru a genera potriviri și scoruri ELO. ➤ GLM-4.7 din @Zai_org atinge un ELO de 1224, situându-se imediat în urma GPT-5.1 (ridicat) și o creștere de ~170 de puncte comparativ cu GLM-4.6. Aceasta înseamnă că ne așteptăm ca producțiile GLM-4.7 să depășească GLM-4.6 în 73% din cazuri, comparativ direct la cap. ➤ @MiniMax__AI a arătat, de asemenea, îmbunătățiri față de GDPval-AA odată cu lansarea M2.1, crescând ELO cu +56 puncte față de modelul anterior M2, dar rămânând între codexul GLM-4.6 și GPT-5.1 (ridicat).
Clasamentul GDPval-AA: Analiză artificială comparație a furnizorilor de API-uri serverless GLM-4.7: Comparație de analiză artificială a furnizorilor de API-uri serverless MiniMax M2.1:
2,89K