GLM-4.6V-serien er her🚀 - GLM-4.6V (106B): flaggskip visjonsspråkmodell med 128K kontekst - GLM-4.6V-Flash (9B): ultrarask, lett versjon for lokale og lav-latens arbeidsbelastninger Den aller første native funksjonskallingen i GLM-visjonsmodellfamilien Vekter: Prøv GLM-4.6V nå: Application Programming Interface: Teknologiblogg: API-prising (per 1M tokens): - GLM-4,6V: $0,6 inngang / $0,9 utgang - GLM-4.6V-Flash: Gratis
GLM-4.6V kan akseptere multimodale innganger av ulike typer og automatisk generere høykvalitets, strukturert bilde-tekst-interleaved innhold.
GLM-4.6V leverer en ende-til-ende multimodal søke- og analysearbeidsflyt, som gjør det mulig for modellen å bevege seg sømløst fra visuell oppfatning til nettbasert henting, til resonnement og til endelig svar.
Vi har optimalisert GLM-4.6V for frontend-utvikling, noe som betydelig har forkortet «design to code»-syklusen.
GLM-4.6V justerer sin visuelle koder med en kontekstlengde på 128K, noe som gir modellen en enorm minnekapasitet. I praksis tilsvarer dette behandling av ~150 sider med komplekse dokumenter, 200 lysbildesider eller en én time lang video i en enkelt slutningsrunde.
Modellen kan utføre globale oppsummeringer på lange videoer samtidig som den beholder evnen til å utføre finjustert resonnement på tidsmessige ledetråder, som å oppsummere målhendelser og tidsstempler i en hel fotballkamp.
142,46K