Atualização do leaderboard GDPval-AA: GLM-4.7 é o novo líder em pesos abertos com um ELO de 1224, e o MiniMax M2.1 faz melhorias significativas em relação ao M2 O GDPval-AA compara as saídas dos modelos em tarefas realistas de trabalho de conhecimento, como preparar apresentações, análises e mais, utilizando um ambiente de terminal dedicado e acesso à web. As saídas de trabalho são então comparadas entre si e avaliadas com um pipeline automatizado para gerar correspondências e pontuações ELO. ➤ O GLM-4.7 da @Zai_org alcança um ELO de 1224, ficando logo atrás do GPT-5.1 (alto) e um aumento de ~170 pontos em comparação com o GLM-4.6. Isso significa que esperamos que as saídas do GLM-4.7 superem as do GLM-4.6 73% das vezes quando comparadas diretamente. ➤ A @MiniMax__AI também mostrou melhorias no GDPval-AA com o lançamento do M2.1, aumentando o ELO em +56 pontos em comparação com o modelo M2 anterior, mas ainda se situando entre o GLM-4.6 e o GPT-5.1 Codex (alto).
Classificação GDPval-AA: Comparação de Análise Artificial dos fornecedores de API sem servidor GLM-4.7: Comparação de Análise Artificial dos fornecedores de API sem servidor MiniMax M2.1:
2,9K