¿Vale más que mil palabras un píxel? DeepSeek-OCR dice que sí. Lo probé con la letra de un médico, desde la legibilidad universitaria hasta el caos de los médicos en ejercicio. Si estamos escalando hacia ventanas de contexto infinitas + inteligencia en tiempo real, es posible que necesitemos modelos multimodales más pequeños con compresión eficiente, no simplemente escalar LLM. Porque tal vez la compresión es solo inteligencia... Predicción: DeepSeekV4 será un VLM. Este artículo de OCR es el teaser.