DeepSeek-OCRの誇大宣伝/深刻な誤解に関するより深刻なスレッドが進行中です。 1. 画像内のテキストを表現することによるトークンの削減について、ケンブリッジの研究者は以前、500倍のプロンプトトークン圧縮が可能であることを示しました(ACL'25、Li、Su、およびCollier)。 テキストを画像に変換するというアイデアを使用せずに。 2. DeepSeek OCR の成功を画像表現の力に帰すべきではありません。 同時に、トークナイザーを使用したテキスト表現には根本的に問題はありません。 実際、DeepSeek-OCRが行ったこととは逆のこと、つまり、画像を一連のテキストトークン(それぞれがRGB値を表す)として表現することができ、問題なく動作します。(LIFTの論文を参照してください。 3. 唯一の正しいポイントは、LLM が現在使用している埋め込みスペースは膨大であり、おそらく非常に無駄であるということです。 そして重要なのは、まだそれらを最大限に活用していないことです。 4. 同じメッセージを裏付ける最近の証拠はたくさんあります。 たとえば、複数のタスクからコンテキスト内のデモンストレーションを提供し、1つのコンテキストに混在している場合、モデルは複数のICL予測タスクを同時に解決できることが示されています。(EVERYTHING EVERYWHERE ALL AT ONCEの論文を参照してください。 5. TLDR; - DeepSeek-OCRはクールです - しかし、スクイーズされたテキスト トークンで LLM を微調整するだけで、より高いトークン削減率を達成できます - LLM が大規模な埋め込みスペースと推論時に入る膨大な量のコンピューティングを十分に活用していないという証拠がさらに増えています - そして、それがあなたが取り除くべき唯一の本当の収穫です