Yann LeCun introducerar VL-JEPA: ett högpresterande, icke-generativt alternativ till multimodala LLM:er som överträffar traditionella modeller både i hastighet och noggrannhet. * Icke-generativ och realtidsmodell: Den första modellen i sitt slag byggd på en gemensam inbäddningsprediktiv arkitektur, vilket möjliggör allmänna visionsspråksuppgifter i realtid. * Överlägsen prestanda: Genom att förutsäga i latent utrymme istället för datautrymmestokens överträffar den konsekvent generativa VLM i kontrollerade experiment. * Streamingeffektivitet: Dess icke-autoregressiva design möjliggör selektiv avkodning och ger enorma effektivitetsvinster för onlinevideoapplikationer. * Enhetlig arkitektur: En enda modell som samtidigt behärskar klassificering, hämtning och VQA-uppgifter.