Серия GLM-4.6V здесь🚀 - GLM-4.6V (106B): флагманская модель с языковым и визуальным восприятием с контекстом 128K - GLM-4.6V-Flash (9B): ультрабыстрая, легковесная версия для локальных и низколатентных задач Первый в мире нативный вызов функций в семействе моделей GLM Вес: Попробуйте GLM-4.6V сейчас: API: Технический блог: Цены на API (за 1M токенов): - GLM-4.6V: $0.6 ввод / $0.9 вывод - GLM-4.6V-Flash: бесплатно
GLM-4.6V может принимать мультимодальные входные данные различных типов и автоматически генерировать высококачественный, структурированный контент с чередующимися изображениями и текстом.
GLM-4.6V предоставляет сквозной многомодальный рабочий процесс поиска и анализа, позволяя модели бесшовно переходить от визуального восприятия к онлайн-поиску, к рассуждениям и к окончательному ответу.
Мы оптимизировали GLM-4.6V для разработки фронтенда, значительно сократив цикл "дизайн до кода".
GLM-4.6V выравнивает свой визуальный кодировщик с длиной контекста 128K, что дает модели огромную емкость памяти. На практике это эквивалентно обработке ~150 страниц сложных документов, 200 слайд-страниц или видео продолжительностью один час за один проход вывода.
Модель может выполнять глобальное резюмирование длинных видео, сохраняя при этом возможность детального анализа временных подсказок, таких как резюмирование ключевых событий и временных меток в полном футбольном матче.
177,56K