Un hilo más serio sobre el bombo de DeepSeek-OCR / la grave mala interpretación que está ocurriendo. 1. Sobre la reducción de tokens mediante la representación de texto en imágenes, investigadores de Cambridge han demostrado anteriormente que es posible una compresión de tokens de 500x (ACL'25, Li, Su y Collier). Sin usar la idea de convertir texto en imágenes. 2. No deberíamos atribuir el éxito de DeepSeek OCR al poder de la representación de imágenes. Al mismo tiempo, no hay nada fundamentalmente incorrecto con la representación de texto con cualquier tokenizador. De hecho, puedes hacer lo opuesto a lo que hizo DeepSeek-OCR, es decir, puedes representar imágenes como una secuencia de tokens de texto (cada uno representando sus valores RGB), y las cosas funcionarán bien. (Consulta el artículo de LIFT.) 3. La única conclusión correcta es que los espacios de incrustación actuales utilizados por los LLM son simplemente enormes y tal vez incluso muy derrochadores. Y lo más importante, aún no estamos aprovechándolos al máximo. 4. Hay mucha evidencia reciente que apoya el mismo mensaje. Por ejemplo, se ha demostrado que si proporcionas demostraciones en contexto de múltiples tareas pero mezcladas en un solo contexto, entonces tu modelo puede resolver múltiples tareas de predicción ICL simultáneamente. (Consulta el artículo de EVERYTHING EVERYWHERE ALL AT ONCE.) 5. tldr; - DeepSeek-OCR es genial - pero puedes lograr una mayor tasa de reducción de tokens simplemente ajustando finamente los LLM en tokens de texto comprimidos - hay más evidencia de que los LLM no están utilizando completamente el gran espacio de incrustación y la enorme cantidad de computación que se utiliza en el tiempo de inferencia - y esa es la única conclusión real que deberías llevarte.