Yann LeCun apresenta o VL-JEPA: uma alternativa de alta eficiência e não generativa aos LLMs multimodais que supera modelos tradicionais tanto em velocidade quanto em precisão. * Não Generativo & Tempo Real: O primeiro modelo desse tipo construído sobre uma arquitetura preditiva de embedding conjunto, permitindo tarefas de linguagem de visão em domínio geral em tempo real. * Desempenho Superior: Ao prever tokens em espaço latente em vez de espaço de dados, ele supera consistentemente os VLMs generativos em experimentos controlados. * Eficiência de Streaming: Seu design não autorregressivo permite decodificação seletiva, oferecendo ganhos enormes de eficiência para aplicações de vídeo online. * Arquitetura Unificada: Um único modelo que simultaneamente domina tarefas de classificação, recuperação e VQA.