一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

GLM-4.6V系列来了🚀 - GLM-4.6V (106B)：旗舰视觉语言模型，具有128K上下文 - GLM-4.6V-Flash (9B)：超快、轻量级版本，适用于本地和低延迟工作负载 GLM视觉模型系列首次原生函数调用权重：立即尝试GLM-4.6V： API：技术博客： API定价（每百万个令牌）： - GLM-4.6V：$0.6 输入 / $0.9 输出 - GLM-4.6V-Flash：免费

GLM-4.6V 可以接受各种类型的多模态输入，并自动生成高质量、结构化的图文交错内容。

GLM-4.6V 提供了一个端到端的多模态搜索和分析工作流程，使模型能够无缝地从视觉感知转向在线检索，再到推理和最终答案。

我们已经为前端开发优化了 GLM-4.6V，显著缩短了 "设计到编码" 的周期。

GLM-4.6V 将其视觉编码器与 128K 上下文长度对齐，赋予模型巨大的内存容量。实际上，这相当于在一次推理中处理约 150 页复杂文档、200 页幻灯片或一小时长的视频。

该模型可以对长视频进行全球摘要，同时保留对时间线索进行细致推理的能力，例如总结一场完整足球比赛中的进球事件和时间戳。

142.46K