Обновление таблицы лидеров GDPval-AA: GLM-4.7 стал новым лидером с открытыми весами с рейтингом 1224 ELO, а MiniMax M2.1 делает значительные улучшения по сравнению с M2 GDPval-AA сравнивает результаты моделей по реалистичным задачам интеллектуального труда, таким как подготовка презентаций, анализ и многое другое, используя специализированную терминальную среду и доступ в интернет. Результаты работы затем сравниваются друг с другом и оцениваются с помощью автоматизированного конвейера для генерации матчей и ELO-рейтингов. ➤ GLM-4.7 от @Zai_org достигает ELO 1224, что ставит его на второе место после GPT-5.1 (высокий) и ~170 пунктов увеличения по сравнению с GLM-4.6. Это означает, что мы ожидаем, что результаты GLM-4.7 будут превосходить GLM-4.6 в 73% случаев при прямом сравнении. ➤ @MiniMax__AI также показал улучшения в GDPval-AA с их выпуском M2.1, увеличив ELO на +56 пунктов по сравнению с предыдущей моделью M2, но все еще находясь между GLM-4.6 и GPT-5.1 Codex (высокий).
Таблица лидеров GDPval-AA: Сравнение искусственного анализа поставщиков серверного API GLM-4.7: Сравнение искусственного анализа поставщиков серверного API MiniMax M2.1:
2,82K