热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
为什么DeepSeek-OCR如此重要?
现有的LLM在处理长输入时遇到困难,因为它们只能处理固定数量的标记,称为上下文窗口,并且随着输入变长,注意力成本迅速增加。
DeepSeek-OCR采取了一种新方法。
它不是直接将长上下文发送给LLM,而是将其转换为图像,将该图像压缩为视觉标记,然后将这些标记传递给LLM。
更少的标记导致注意力的计算成本降低,并且有效的上下文窗口更大。这使得聊天机器人和文档模型更具能力和效率。
DeepSeek-OCR是如何构建的?该系统有两个主要部分:
1. 编码器:它处理文本图像,提取视觉特征,并将其压缩为少量视觉标记。
2. 解码器:一种混合专家语言模型,读取这些标记并逐个生成文本,类似于标准的仅解码器变换器。
何时使用它?
DeepSeek-OCR表明,文本可以通过视觉表示有效压缩。
它特别适用于处理超出标准上下文限制的非常长的文档。您可以将其用于上下文压缩、标准OCR任务或深度解析,例如将表格和复杂布局转换为文本。
交给你:你对使用视觉标记来处理LLM中的长上下文问题有什么看法?这会成为大型模型的下一个标准吗?
--
我们刚刚推出了成为AI工程师 | 通过实践学习:第二期。如果您错过了第一期,现在是您加入第二期的机会。
在这里查看:
#AI #AIEngineer #MachineLearning...

热门
排行
收藏

