🎉恭喜 @Zai_org 团队推出 GLM-4.6V 和 GLM-4.6V-Flash —— 在 vLLM Recipes 中为希望在自己的 GPU 上运行它们的团队提供了零日服务支持。 GLM-4.6V 专注于高质量的多模态推理,具有长上下文和原生工具/函数调用,而 GLM-4.6V-Flash 是一个 9B 变体,经过调优以实现更低的延迟和更小的占用;我们的新 vLLM Recipe 提供了即用型配置、多 GPU 指导和以生产为导向的默认设置。 如果您正在构建推理服务并希望在您的技术栈中使用 GLM-4.6V,请从这里开始: