DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

La serie GLM-4.6V ya está aquí🚀 - GLM-4.6V (106B): modelo insignia de visión-lenguaje con 128K de contexto - GLM-4.6V-Flash (9B): versión ultra-rápida y ligera para cargas de trabajo locales y de baja latencia Primera llamada a funciones nativa en la familia de modelos de visión GLM Pesos: Prueba GLM-4.6V ahora: API: Blog técnico: Precios de API (por 1M de tokens): - GLM-4.6V: $0.6 entrada / $0.9 salida - GLM-4.6V-Flash: Gratis

GLM-4.6V puede aceptar entradas multimodales de varios tipos y generar automáticamente contenido intercalado de imagen y texto de alta calidad y estructurado.

GLM-4.6V ofrece un flujo de trabajo de búsqueda y análisis multimodal de extremo a extremo, permitiendo que el modelo pase sin problemas de la percepción visual a la recuperación en línea, al razonamiento y a la respuesta final.

Hemos optimizado GLM-4.6V para el desarrollo frontend, acortando significativamente el ciclo de "diseño a código".

GLM-4.6V alinea su codificador visual con una longitud de contexto de 128K, lo que le da al modelo una capacidad de memoria masiva. En la práctica, esto equivale a procesar ~150 páginas de documentos complejos, 200 páginas de diapositivas o un video de una hora de duración en una sola pasada de inferencia.

El modelo puede realizar una resumición global de videos largos mientras mantiene la capacidad de realizar un razonamiento detallado sobre pistas temporales, como resumir eventos clave y marcas de tiempo en un partido de fútbol completo.

177,56K

Parte superior

Clasificación

Favoritos