Un hilo más serio sobre la exageración de DeepSeek-OCR / grave mala interpretación en curso. 1. En cuanto a la reducción de tokens mediante la representación de texto en imágenes, los investigadores de Cambridge han demostrado previamente que es posible la compresión de tokens de 500x (ACL'25, Li, Su y Collier). Sin usar la idea de convertir texto en imágenes. 2. No debemos atribuir el éxito de DeepSeek OCR al poder de la representación de imágenes. Al mismo tiempo, no hay nada fundamentalmente malo en la representación de texto con cualquier tokenizador. De hecho, puede hacer lo contrario de lo que hizo DeepSeek-OCR, es decir, puede representar imágenes como una secuencia de tokens de texto (cada uno de los cuales representa sus valores RGB), y las cosas funcionarán bien. (Ver el documento LIFT). 3. La única conclusión correcta es que los espacios de incrustación actuales utilizados por los LLM son enormes y tal vez incluso muy derrochadores. Y lo que es más importante, aún no los estamos utilizando al máximo. 4. Hay mucha evidencia reciente que respalda el mismo mensaje. Por ejemplo, se muestra que si proporciona demostraciones en contexto de múltiples tareas pero mezcladas en un solo contexto, entonces su modelo puede resolver múltiples tareas de predicción ICL simultáneamente. (Ver el documento EVERYTHING EVERYWHERE ALL AT ONCE). 5. TLDR; - DeepSeek-OCR es genial - pero puede lograr una tasa de reducción de tokens más alta simplemente ajustando los LLM en tokens de texto comprimidos - hay más evidencia de que los LLM no están utilizando completamente el gran espacio de incrustación y la gran cantidad de cómputo que entra en el momento de la inferencia - Y esa es la única conclusión real que debes llevarte