一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

为什么DeepSeek-OCR如此重要？现有的LLM在处理长输入时遇到困难，因为它们只能处理固定数量的标记，称为上下文窗口，并且随着输入变长，注意力成本迅速增加。 DeepSeek-OCR采取了一种新方法。它不是直接将长上下文发送给LLM，而是将其转换为图像，将该图像压缩为视觉标记，然后将这些标记传递给LLM。更少的标记导致注意力的计算成本降低，并且有效的上下文窗口更大。这使得聊天机器人和文档模型更具能力和效率。 DeepSeek-OCR是如何构建的？该系统有两个主要部分： 1. 编码器：它处理文本图像，提取视觉特征，并将其压缩为少量视觉标记。 2. 解码器：一种混合专家语言模型，读取这些标记并逐个生成文本，类似于标准的仅解码器变换器。何时使用它？ DeepSeek-OCR表明，文本可以通过视觉表示有效压缩。它特别适用于处理超出标准上下文限制的非常长的文档。您可以将其用于上下文压缩、标准OCR任务或深度解析，例如将表格和复杂布局转换为文本。交给你：你对使用视觉标记来处理LLM中的长上下文问题有什么看法？这会成为大型模型的下一个标准吗？ -- 我们刚刚推出了成为AI工程师 | 通过实践学习：第二期。如果您错过了第一期，现在是您加入第二期的机会。在这里查看： #AI #AIEngineer #MachineLearning...