Ян Лекун представляє VL-JEPA: високоефективну, негенеративну альтернативу мультимодальним LLM, яка перевершує традиційні моделі як за швидкістю, так і за точністю. * Негенеративна та в реальному часі: Перша модель такого роду, побудована на спільній вбудованій прогностичній архітектурі, що дозволяє виконувати завдання мови бачення загального домену в реальному часі. * Вища продуктивність: Прогнозуючи у латентному просторі, а не в просторі даних, він стабільно перевершує генеративні VLM у контрольованих експериментах. * Ефективність потокового стрімінгу: Її неавторегресійний дизайн дозволяє селективне декодування, забезпечуючи значне підвищення ефективності для онлайн-відеозастосунків. * Уніфікована архітектура: єдина модель, яка одночасно опанує завдання класифікації, пошуку та VQA.