GLM-4.6V-serien är här🚀 - GLM-4.6V (106B): flaggskeppsmodell för visionsspråk med 128K kontext - GLM-4.6V-Flash (9B): ultrasnabb, lättviktig version för lokala och låglatensarbetsbelastningar Första inbyggda funktionsanrop någonsin i GLM:s visionsmodellfamilj Vikter: Prova GLM-4.6V nu: Application Programming Interface: Teknikblogg: API-prissättning (per 1 miljon tokens): - GLM-4,6V: 0,6 $ ingång / 0,9 $ utgång - GLM-4.6V-Flash: Gratis
GLM-4.6V kan acceptera multimodala indata av olika typer och automatiskt generera högkvalitativt, strukturerat bild-text-interflettat innehåll.
GLM-4.6V levererar ett multimodalt sök- och analysarbetsflöde från början till slut, vilket gör det möjligt för modellen att sömlöst gå från visuell perception till online-sökning, till resonemang och slutligt svar.
Vi har optimerat GLM-4.6V för frontendutveckling, vilket avsevärt förkortar "design to code"-cykeln.
GLM-4.6V justerar sin visuella kodare med en kontextlängd på 128K, vilket ger modellen en enorm minneskapacitet. I praktiken motsvarar detta bearbetning av ~150 sidor komplexa dokument, 200 bildsidor eller en timmes video i en enda slutledningspassning.
Modellen kan utföra global sammanfattning på långa videor samtidigt som den behåller förmågan att utföra finjusterad resonemang kring tidsmässiga ledtrådar, såsom att sammanfatta målhändelser och tidsstämplar i en hel fotbollsmatch.
177,56K