GDPval-AA -tulostaulun päivitys: GLM-4.7 on uusi avopainojen johtaja 1224 ELO:lla, ja MiniMax M2.1 tekee merkittäviä parannuksia M2:een verrattuna GDPval-AA vertaa mallituloksia realistisissa tietotyötehtävissä, kuten esitysten valmistelussa, analyysissä ja muussa, käyttäen omistettua terminaaliympäristöä ja verkkoyhteyksiä. Työtuloksia verrataan keskenään ja arvioidaan automaattisella putkella, jolla saadaan osumia ja ELO-pisteitä. ➤ GLM-4.7 @Zai_org:sta saavuttaa ELO-arvon 1224, sijoittuen juuri GPT-5.1:n (korkein) taakse ja ~170 pisteen nousun verrattuna GLM-4.6:een. Tämä tarkoittaa, että odotamme GLM-4.7:n tulosten voittavan GLM-4.6:n 73 % tapauksista verrattuna suoraan toisiinsa. ➤ @MiniMax__AI paransi myös GDPval-AA:ta M2.1:n julkaisulla, kasvattaen ELO:ta +56 pistettä verrattuna aiempaan M2-malliin, mutta silti GLM-4.6:n ja GPT-5.1 Codexin (korkea) välissä.
GDPval-AA-tulostaulukko: GLM-4.7:n palvelimettomien API-palveluntarjoajien keinotekoinen analyysi: MiniMax M2.1 -palvelimettomien API-palveluntarjoajien tekoälyanalyysin vertailu:
2,89K