GLM-4.6V系列来了🚀 - GLM-4.6V (106B):旗舰视觉语言模型,具有128K上下文 - GLM-4.6V-Flash (9B):超快、轻量级版本,适用于本地和低延迟工作负载 GLM视觉模型系列首次原生函数调用 权重: 立即尝试GLM-4.6V: API: 技术博客: API定价(每百万个令牌): - GLM-4.6V:$0.6 输入 / $0.9 输出 - GLM-4.6V-Flash:免费
GLM-4.6V 可以接受各种类型的多模态输入,并自动生成高质量、结构化的图文交错内容。
GLM-4.6V 提供了一个端到端的多模态搜索和分析工作流程,使模型能够无缝地从视觉感知转向在线检索,再到推理和最终答案。
我们已经为前端开发优化了 GLM-4.6V,显著缩短了 "设计到编码" 的周期。
GLM-4.6V 将其视觉编码器与 128K 上下文长度对齐,赋予模型巨大的内存容量。实际上,这相当于在一次推理中处理约 150 页复杂文档、200 页幻灯片或一小时长的视频。
该模型可以对长视频进行全球摘要,同时保留对时间线索进行细致推理的能力,例如总结一场完整足球比赛中的进球事件和时间戳。
142.46K