GLM-4.6V 系列來了🚀 - GLM-4.6V (106B):旗艦視覺-語言模型,擁有 128K 上下文 - GLM-4.6V-Flash (9B):超快速、輕量級版本,適用於本地和低延遲工作負載 GLM 視覺模型系列首個原生函數調用 權重: 立即試用 GLM-4.6V: API: 技術部落格: API 價格(每 1M 代幣): - GLM-4.6V:$0.6 輸入 / $0.9 輸出 - GLM-4.6V-Flash:免費
GLM-4.6V 可以接受各種類型的多模態輸入,並自動生成高品質、結構化的圖像-文本交錯內容。
GLM-4.6V 提供了一個端到端的多模態搜索和分析工作流程,使模型能夠無縫地從視覺感知轉移到在線檢索,再到推理和最終答案。
我們已經為前端開發優化了 GLM-4.6V,顯著縮短了「設計到代碼」的週期。
GLM-4.6V 將其視覺編碼器與 128K 上下文長度對齊,賦予模型巨大的記憶容量。實際上,這相當於在一次推理過程中處理約 150 頁複雜文件、200 頁幻燈片或一小時長的視頻。
該模型可以對長視頻進行全球摘要,同時保留對時間線索進行細緻推理的能力,例如總結整場足球比賽中的進球事件和時間戳。
142.46K