Yann LeCun wprowadza VL-JEPA: wysokowydajną, niegeneratywną alternatywę dla multimodalnych LLM, która przewyższa tradycyjne modele zarówno pod względem szybkości, jak i dokładności. * Niegeneratywna i w czasie rzeczywistym: Pierwszy model tego rodzaju zbudowany na architekturze predykcyjnej z wspólnym osadzeniem, umożliwiający zadania związane z wizją i językiem w czasie rzeczywistym. * Doskonała wydajność: Przewidując w przestrzeni latentnej, a nie w przestrzeni danych, konsekwentnie przewyższa generatywne VLM w kontrolowanych eksperymentach. * Wydajność strumieniowa: Jego projekt nieautoregresywny pozwala na selektywne dekodowanie, oferując ogromne zyski wydajności dla aplikacji wideo online. * Zjednoczona architektura: Jeden model, który jednocześnie opanowuje zadania klasyfikacji, wyszukiwania i VQA.