Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

GLM-5 — это новая ведущая модель с открытыми весами! GLM-5 возглавляет Индекс Искусственного Анализа Интеллекта среди моделей с открытыми весами и значительно превосходит GLM-4.7 в GDPval-AA, нашем агентном бенчмарке, сосредоточенном на экономически ценных рабочих задачах. GLM-5 — это первая новая архитектура @Zai_org с момента выхода GLM-4.5 — каждая из моделей GLM-4.5, 4.6 и 4.7 имела 355B в общей сложности / 32B активных параметров в смеси экспертов. GLM-5 масштабируется до 744B в общей сложности / 40B активных и интегрирует DeepSeek Sparse Attention. Это ставит GLM-5 ближе к количеству параметров семейства DeepSeek V3 (671B в общей сложности / 37B активных) и семейства Kimi K2 от Moonshot (1T в общей сложности, 32B активных). Однако GLM-5 выпущен с точностью BF16, общим размером ~1.5TB — больше, чем у DeepSeek V3 и недавних моделей Kimi K2, которые были выпущены нативно с точностью FP8 и INT4 соответственно. Ключевые выводы: ➤ GLM-5 набирает 50 баллов в Индексе Интеллекта и является новым лидером среди моделей с открытыми весами, поднявшись с 42 баллов GLM-4.7 — на 8 пунктов, что обусловлено улучшениями в агентной производительности и знании/галлюцинациях. Это первый случай, когда модель с открытыми весами достигла 50 баллов или выше в Индексе Искусственного Анализа Интеллекта v4.0, что представляет собой значительное сокращение разрыва между проприетарными и открытыми весами. Она занимает более высокие позиции по сравнению с другими передовыми моделями с открытыми весами, такими как Kimi K2.5, MiniMax 2.1 и DeepSeek V3.2. ➤ GLM-5 достигает наивысшего балла в Индексе Искусственного Анализа Агентности среди моделей с открытыми весами с результатом 63, занимая третье место в общем зачете. Это обусловлено сильной производительностью в GDPval-AA, нашем основном показателе общей агентной производительности по рабочим задачам, связанным с подготовкой презентаций и анализом данных, вплоть до видеомонтажа. GLM-5 имеет ELO GDPval-AA 1412, только ниже Claude Opus 4.6 и GPT-5.2 (xhigh). GLM-5 представляет собой значительное повышение производительности моделей с открытыми весами в реальных экономически ценных рабочих задачах. ➤ GLM-5 демонстрирует значительное улучшение в Индексе AA-Всеведения, обусловленное снижением галлюцинаций. GLM-5 набирает -1 в Индексе AA-Всеведения — на 35 пунктов лучше по сравнению с GLM-4.7 (Размышление, -36). Это обусловлено снижением уровня галлюцинаций на 56 п.п. по сравнению с GLM-4.7 (Размышление). GLM-5 достигает этого, чаще воздерживаясь и имеет наименьший уровень галлюцинаций среди протестированных моделей. ➤ GLM-5 использовал ~110M выходных токенов для работы Индекса Интеллекта, по сравнению с ~170M выходных токенов GLM-4.7, что является значительным снижением, несмотря на более высокие баллы по большинству оценок. Это приближает GLM-5 к границе графика Интеллекта против Выходных Токенов, но менее эффективно по токенам по сравнению с Opus 4.6. Ключевые детали модели: ➤ Контекстное окно: 200K токенов, эквивалентно GLM-4.7. Мультимодальность: только текстовый ввод и вывод — Kimi K2.5 остается ведущей моделью с открытыми весами, поддерживающей ввод изображений. ➤ Размер: 744B общих параметров, 40B активных параметров. Для самостоятельного развертывания GLM-5 потребуется ~1,490GB памяти для хранения весов в нативной точности BF16. ➤ Лицензирование: Лицензия MIT. Доступность: На момент публикации этого анализа GLM-5 доступен через API первого лица Z AI и несколько сторонних API, таких как @novita_labs ($1/$3.2 за 1M входных/выходных токенов), @gmi_cloud ($1/$3.2) и @DeepInfra ($0.8/$2.56), в точности FP8. ➤ Токены для обучения: Z AI также указал, что увеличил объем данных для предварительного обучения с 23T до 28.5T токенов.

GLM-5 демонстрирует улучшение в Индексе AA-Всеведения, что обусловлено меньшим количеством галлюцинаций. Это означает, что модель чаще воздерживается от ответов на вопросы, на которые она не знает ответ.

Разбивка полных результатов

GLM-5 репозиторий HuggingFace: Для получения дополнительной информации посетите:

14,03K

Топ

Рейтинг

Избранное