A série GLM-4.6V chegou🚀 - GLM-4.6V (106B): modelo principal de linguagem visual com contexto 128K - GLM-4.6V-Flash (9B): versão ultra-rápida e leve para cargas locais e de baixa latência Primeira chamada nativa de função na família de modelos de visão GLM Pesos: Experimente o GLM-4.6V agora: API: Blog de Tecnologia: Precificação da API (por 1M de tokens): - GLM-4.6V: $0.6 de entrada / $0.9 de saída - GLM-4.6V-Flash: Grátis
O GLM-4.6V pode aceitar entradas multimodais de vários tipos e gerar automaticamente conteúdo de alta qualidade, estruturado e intercalado entre imagem e texto.
O GLM-4.6V oferece um fluxo de trabalho multimodal de busca e análise de ponta a ponta, permitindo que o modelo avance de forma fluida da percepção visual para a recuperação online, para o raciocínio e para a resposta final.
Otimizamos o GLM-4.6V para desenvolvimento frontend, encurtando significativamente o ciclo de "design conforme o código".
O GLM-4.6V alinha seu codificador visual com um comprimento contextual de 128K, conferindo ao modelo uma enorme capacidade de memória. Na prática, isso equivale a processar ~150 páginas de documentos complexos, 200 páginas de slides ou um vídeo de uma hora em uma única passagem de inferência.
O modelo pode realizar resumos globais em vídeos longos enquanto mantém a capacidade de realizar raciocínios detalhados sobre pistas temporais, como resumir eventos de gols e carimbos de tempo em uma partida completa de futebol.
200,33K