Yann LeCun presenta VL-JEPA: una alternativa no generativa de alta eficiencia a los LLM multimodales que supera a los modelos tradicionales tanto en velocidad como en precisión. * No Generativo y en Tiempo Real: El primer modelo de su tipo construido sobre una arquitectura predictiva de incrustación conjunta, que permite tareas de visión-lenguaje de dominio general en tiempo real. * Rendimiento Superior: Al predecir en el espacio latente en lugar de en el espacio de datos, supera consistentemente a los VLM generativos en experimentos controlados. * Eficiencia de Streaming: Su diseño no autorregresivo permite una decodificación selectiva, ofreciendo enormes ganancias de eficiencia para aplicaciones de video en línea. * Arquitectura Unificada: Un solo modelo que domina simultáneamente tareas de clasificación, recuperación y VQA.