A série GLM-4.6V chegou🚀 - GLM-4.6V (106B): modelo de linguagem-visual de destaque com 128K de contexto - GLM-4.6V-Flash (9B): versão ultra-rápida e leve para cargas de trabalho locais e de baixa latência Primeira chamada de função nativa na família de modelos de visão GLM Pesos: Experimente o GLM-4.6V agora: API: Blog Técnico: Preços da API (por 1M de tokens): - GLM-4.6V: $0.6 entrada / $0.9 saída - GLM-4.6V-Flash: Grátis
O GLM-4.6V pode aceitar entradas multimodais de vários tipos e gerar automaticamente conteúdo intercalado de imagem-texto de alta qualidade e estruturado.
GLM-4.6V oferece um fluxo de trabalho de pesquisa e análise multimodal de ponta a ponta, permitindo que o modelo transite de forma fluida da percepção visual à recuperação online, ao raciocínio e à resposta final.
Otimizar GLM-4.6V para desenvolvimento frontend, encurtando significativamente o ciclo de "design para código".
O GLM-4.6V alinha o seu codificador visual com um comprimento de contexto de 128K, proporcionando ao modelo uma capacidade de memória massiva. Na prática, isso equivale a processar ~150 páginas de documentos complexos, 200 páginas de slides ou um vídeo de uma hora em uma única passagem de inferência.
O modelo pode realizar uma sumarização global em vídeos longos, mantendo a capacidade de realizar raciocínios detalhados sobre pistas temporais, como resumir eventos de gol e timestamps em um jogo completo de futebol.
142,45K