Yann LeCun présente VL-JEPA : une alternative non générative à haute efficacité aux LLM multimodaux qui surpasse les modèles traditionnels en termes de vitesse et de précision. * Non-génératif et en temps réel : Le premier modèle de ce type construit sur une architecture prédictive d'embedding joint, permettant des tâches de vision-langage de domaine général en temps réel. * Performance supérieure : En prédisant dans l'espace latent plutôt que dans l'espace des données, il surpasse systématiquement les VLM génératifs dans des expériences contrôlées. * Efficacité de streaming : Son design non autorégressif permet un décodage sélectif, offrant d'énormes gains d'efficacité pour les applications vidéo en ligne. * Architecture unifiée : Un seul modèle qui maîtrise simultanément les tâches de classification, de récupération et de VQA.