Řada GLM-4.6V je zde🚀 - GLM-4.6V (106B): vlajkový model vision-language s kontextem 128K - GLM-4.6V-Flash (9B): ultrarychlá, lehká verze pro lokální a nízkolatenční pracovní zátěže První nativní volání funkcí v rodině modelů obrazu GLM Hmotnosti: Zkuste teď GLM-4.6V: Rozhraní api: Technologický blog: Ceny API (na 1M tokenů): - GLM-4.6V: vstup 0,6 $ / výstup 0,9 $ - GLM-4.6V-Flash: Zdarma
GLM-4.6V dokáže přijímat multimodální vstupy různých typů a automaticky generovat vysoce kvalitní, strukturovaný obsah s prokládaným obrazem a textem.
GLM-4.6V nabízí komplexní multimodální vyhledávací a analytický workflow, který umožňuje modelu plynule přecházet od vizuálního vnímání k online vyhledávání, k uvažování a konečné odpovědi.
Optimalizovali jsme GLM-4.6V pro frontendový vývoj, což výrazně zkrátilo cyklus "design to code".
GLM-4.6V zarovnává svůj vizuální enkodér s délkou kontextu 128K, což modelu dává obrovskou paměťovou kapacitu. V praxi to znamená zpracování ~150 stran složitých dokumentů, 200 stran snímků nebo hodinového videa v jednom odvozovém průchodu.
Model dokáže provádět globální shrnování na dlouhých videích a zároveň si zachovává možnost detailního uvažování na základě časových indicií, například shrnutí cílových událostí a časových značek v plném fotbalovém zápase.
142,46K