Yann LeCun presenta VL-JEPA: un'alternativa ad alta efficienza e non generativa agli LLM multimodali che supera i modelli tradizionali sia in velocità che in accuratezza. * Non Generativa & In Tempo Reale: Il primo modello della sua categoria costruito su un'architettura predittiva di embedding congiunto, che consente compiti di visione-linguaggio in dominio generale in tempo reale. * Prestazioni Superiori: Predicendo nello spazio latente piuttosto che nello spazio dati, supera costantemente i VLM generativi in esperimenti controllati. * Efficienza in Streaming: Il suo design non autoregressivo consente una decodifica selettiva, offrendo enormi guadagni di efficienza per le applicazioni video online. * Architettura Unificata: Un singolo modello che padroneggia simultaneamente compiti di classificazione, recupero e VQA.