Yann LeCun introduserer VL-JEPA: et høyeffektivt, ikke-generativt alternativ til multimodale LLM-er som overgår tradisjonelle modeller både i hastighet og nøyaktighet. * Ikke-generativ og sanntids: Den første modellen av sitt slag bygget på en felles innebygd prediktiv arkitektur, som muliggjør generelle visjonsspråkoppgaver i sanntid. * Overlegen ytelse: Ved å forutsi i latent rom i stedet for dataspace-tokens, overgår den konsekvent generative VLM-er i kontrollerte eksperimenter. * Strømmingseffektivitet: Dens ikke-autoregressive design tillater selektiv dekoding, noe som gir store effektivitetsgevinster for nettvideoapplikasjoner. * Unified Architecture: En enkelt modell som samtidig mestrer klassifisering, henting og VQA-oppgaver.