Die GLM-4.6V-Serie ist da🚀 - GLM-4.6V (106B): Flaggschiff-Vision-Sprachmodell mit 128K Kontext - GLM-4.6V-Flash (9B): ultra-schnelle, leichte Version für lokale und latenzarme Arbeitslasten Erste native Funktionsaufrufe in der GLM-Vision-Modellfamilie Gewichte: Teste jetzt GLM-4.6V: API: Technik-Blog: API-Preise (pro 1M Tokens): - GLM-4.6V: 0,6 $ Eingabe / 0,9 $ Ausgabe - GLM-4.6V-Flash: Kostenlos
GLM-4.6V kann multimodale Eingaben verschiedener Typen akzeptieren und automatisch qualitativ hochwertige, strukturierte, bild-text-verknüpfte Inhalte generieren.
GLM-4.6V bietet einen durchgängigen multimodalen Such- und Analyse-Workflow, der es dem Modell ermöglicht, nahtlos von visueller Wahrnehmung über Online-Abfrage bis hin zu Schlussfolgerungen und zur finalen Antwort zu wechseln.
Wir haben GLM-4.6V für die Frontend-Entwicklung optimiert und den "Design-zu-Code"-Zyklus erheblich verkürzt.
GLM-4.6V stimmt seinen visuellen Encoder mit einer Kontextlänge von 128K ab, was dem Modell eine massive Speicherkapazität verleiht. In der Praxis entspricht dies der Verarbeitung von ~150 Seiten komplexer Dokumente, 200 Folienseiten oder einem einstündigen Video in einem einzigen Inferenzdurchlauf.
Das Modell kann eine globale Zusammenfassung von langen Videos durchführen und gleichzeitig die Fähigkeit behalten, feingliedrige Überlegungen zu zeitlichen Hinweisen anzustellen, wie zum Beispiel das Zusammenfassen von Torereignissen und Zeitstempeln in einem vollständigen Fußballspiel.
177,56K