關於 DeepSeek-OCR 的炒作 / 嚴重誤解的更嚴肅的討論。 1. 關於通過在圖像中表示文本來減少標記,劍橋的研究人員之前已經顯示出 500 倍的提示標記壓縮是可能的(ACL'25,Li,Su 和 Collier)。 不使用將文本轉換為圖像的想法。 2. 我們不應該將 DeepSeek OCR 的成功歸因於圖像表示的力量。 同時,使用任何標記器進行文本表示並沒有根本上的錯誤。 事實上,你可以做 DeepSeek-OCR 所做的相反的事情,即你可以將圖像表示為一系列文本標記(每個標記表示其 RGB 值),這樣一切都會運行良好。(參見 LIFT 論文。) 3. 唯一正確的結論是,目前 LLM 使用的嵌入空間是巨大的,甚至可能非常浪費。 而且重要的是,我們尚未充分利用它們。 4. 最近有很多證據支持相同的信息。 例如,顯示如果你在單一上下文中提供來自多個任務的上下文演示,那麼你的模型可以同時解決多個 ICL 預測任務。(參見 EVERYTHING EVERYWHERE ALL AT ONCE 論文。) 5. tldr; - DeepSeek-OCR 很酷 - 但你可以通過對壓縮的文本標記進行微調 LLM 來實現更高的標記減少率 - 還有更多證據表明 LLM 沒有充分利用大型嵌入空間以及在推理時投入的巨大計算量 - 這是你應該記住的唯一真正的結論