Mise à jour du classement GDPval-AA : GLM-4.7 est le nouveau leader en poids ouverts avec un ELO de 1224, et MiniMax M2.1 apporte des améliorations significatives par rapport à M2 GDPval-AA compare les sorties des modèles sur des tâches de travail de connaissance réalistes telles que la préparation de présentations, l'analyse, et plus encore, en utilisant un environnement terminal dédié et un accès web. Les résultats de travail sont ensuite comparés entre eux et évalués avec un pipeline automatisé pour générer des matchs et des scores ELO. ➤ GLM-4.7 de @Zai_org atteint un ELO de 1224, se plaçant juste derrière GPT-5.1 (élevé) et une augmentation d'environ 170 points par rapport à GLM-4.6. Cela signifie que nous nous attendons à ce que les sorties de GLM-4.7 battent GLM-4.6 73 % du temps lorsqu'elles sont comparées tête-à-tête. ➤ @MiniMax__AI a également montré des améliorations sur GDPval-AA avec leur version de M2.1, augmentant l'ELO de +56 points par rapport au modèle M2 précédent, mais se situant toujours entre GLM-4.6 et GPT-5.1 Codex (élevé).
Classement GDPval-AA : Analyse artificielle de la comparaison des fournisseurs d'API sans serveur GLM-4.7 : Analyse artificielle de la comparaison des fournisseurs d'API sans serveur MiniMax M2.1 :
2,89K