Yann LeCun esittelee VL-JEPA:n: korkeatehoisen, ei-generatiivisen vaihtoehdon multimodaalisille LLM-malleille, joka päihittää perinteiset mallit sekä nopeudessa että tarkkuudessa. * Ei-generatiivinen ja reaaliaikainen: Ensimmäinen laatuaan oleva malli, joka perustuu yhteiseen upotuksen ennustavaan arkkitehtuuriin mahdollistaen yleisen alan näkökielen tehtävät reaaliajassa. * Ylivoimainen suorituskyky: Ennustamalla latenttitilassa dataavaruuden tokenien sijaan, se päihittää johdonmukaisesti generatiiviset VLM:t kontrolloiduissa kokeissa. * Suoratoiston tehokkuus: Sen ei-autoregressiivinen suunnittelu mahdollistaa valikoivan dekoodauksen, tarjoten valtavia tehokkuusparannuksia verkkovideosovelluksissa. * Yhtenäinen arkkitehtuuri: Yksi malli, joka hallitsee samanaikaisesti luokittelu-, haku- ja VQA-tehtäviä.