Ян ЛеКун представляет VL-JEPA: высокоэффективную, негенеративную альтернативу мультимодальным LLM, которая превосходит традиционные модели как по скорости, так и по точности. * Негенеративный и в реальном времени: первая модель своего рода, построенная на архитектуре предсказания с совместным встраиванием, позволяющая выполнять задачи по визуально-языковым данным общего назначения в реальном времени. * Превосходная производительность: предсказывая в латентном пространстве, а не в пространстве токенов данных, она постоянно превосходит генеративные VLM в контролируемых экспериментах. * Эффективность потоковой передачи: ее неавторегрессивный дизайн позволяет выборочное декодирование, обеспечивая огромные приросты эффективности для онлайн-видеоприложений. * Единая архитектура: одна модель, которая одновременно овладевает задачами классификации, извлечения и VQA.