GDPval-AA topplisteoppdatering: GLM-4.7 er den nye lederen i åpne vekter med 1224 ELO, og MiniMax M2.1 gjør betydelige forbedringer over M2 GDPval-AA sammenligner modellresultater med realistiske kunnskapsarbeidsoppgaver som forberedelse av presentasjoner, analyse og mer ved bruk av et dedikert terminalmiljø og webtilgang. Arbeidsresultatene sammenlignes deretter med hverandre og vurderes med en automatisert pipeline for å generere matcher og ELO-poeng. ➤ GLM-4,7 fra @Zai_org oppnår en ELO på 1224, som ligger rett bak GPT-5,1 (høy) og en økning på ~170 poeng sammenlignet med GLM-4,6. Dette betyr at vi forventer at utgangene fra GLM-4.7 slår GLM-4.6 73 % av gangene når de sammenlignes direkte. ➤ @MiniMax__AI viste også forbedringer på GDPval-AA med lanseringen av M2.1, og økte ELO med +56 poeng sammenlignet med forrige M2-modell, men fortsatt mellom GLM-4.6 og GPT-5.1 Codex (høy).
GDPval-AA Ledertavle: Sammenligning av kunstig analyse av GLM-4.7 serverløse API-leverandører: Kunstig analyse-sammenligning av MiniMax M2.1 serverløse API-leverandører:
2,89K