为什么DeepSeek-OCR如此重要? 现有的LLM在处理长输入时遇到困难,因为它们只能处理固定数量的标记,称为上下文窗口,并且随着输入变长,注意力成本迅速增加。 DeepSeek-OCR采取了一种新方法。 它不是直接将长上下文发送给LLM,而是将其转换为图像,将该图像压缩为视觉标记,然后将这些标记传递给LLM。 更少的标记导致注意力的计算成本降低,并且有效的上下文窗口更大。这使得聊天机器人和文档模型更具能力和效率。 DeepSeek-OCR是如何构建的?该系统有两个主要部分: 1. 编码器:它处理文本图像,提取视觉特征,并将其压缩为少量视觉标记。 2. 解码器:一种混合专家语言模型,读取这些标记并逐个生成文本,类似于标准的仅解码器变换器。 何时使用它? DeepSeek-OCR表明,文本可以通过视觉表示有效压缩。 它特别适用于处理超出标准上下文限制的非常长的文档。您可以将其用于上下文压缩、标准OCR任务或深度解析,例如将表格和复杂布局转换为文本。 交给你:你对使用视觉标记来处理LLM中的长上下文问题有什么看法?这会成为大型模型的下一个标准吗? -- 我们刚刚推出了成为AI工程师 | 通过实践学习:第二期。如果您错过了第一期,现在是您加入第二期的机会。 在这里查看: #AI #AIEngineer #MachineLearning...