La serie GLM-4.6V è qui🚀 - GLM-4.6V (106B): modello di punta per visione-linguaggio con contesto di 128K - GLM-4.6V-Flash (9B): versione ultra-veloce e leggera per carichi di lavoro locali e a bassa latenza Prima chiamata di funzione nativa nella famiglia di modelli di visione GLM Pesi: Prova GLM-4.6V ora: API: Blog Tecnico: Prezzi API (per 1M token): - GLM-4.6V: $0.6 input / $0.9 output - GLM-4.6V-Flash: Gratuito
GLM-4.6V può accettare input multimodali di vari tipi e generare automaticamente contenuti di alta qualità, strutturati e intercalati tra immagini e testo.
GLM-4.6V offre un flusso di lavoro di ricerca e analisi multimodale end-to-end, consentendo al modello di passare senza soluzione di continuità dalla percezione visiva al recupero online, al ragionamento e alla risposta finale.
Abbiamo ottimizzato GLM-4.6V per lo sviluppo frontend, accorciando significativamente il ciclo "design to code".
GLM-4.6V allinea il suo encoder visivo con una lunghezza di contesto di 128K, offrendo al modello una capacità di memoria enorme. In pratica, questo equivale a elaborare ~150 pagine di documenti complessi, 200 pagine di diapositive o un video di un'ora in un'unica passata di inferenza.
Il modello può eseguire una sintesi globale su video lunghi mantenendo la capacità di eseguire un ragionamento dettagliato sugli indizi temporali, come riassumere eventi chiave e timestamp in una partita di calcio completa.
177,55K