Yann LeCun apresenta o VL-JEPA: uma alternativa de alta eficiência e não generativa aos LLMs multimodais que supera os modelos tradicionais em velocidade e precisão. * Não Generativo & em Tempo Real: O primeiro modelo do seu tipo construído sobre uma arquitetura preditiva de incorporação conjunta, permitindo tarefas de visão-linguagem de domínio geral em tempo real. * Desempenho Superior: Ao prever no espaço latente em vez de tokens no espaço de dados, ele consistentemente supera os VLMs generativos em experimentos controlados. * Eficiência de Streaming: Seu design não autoregressivo permite a decodificação seletiva, oferecendo enormes ganhos de eficiência para aplicações de vídeo online. * Arquitetura Unificada: Um único modelo que domina simultaneamente tarefas de classificação, recuperação e VQA.