Yann LeCun stellt VL-JEPA vor: eine hocheffiziente, nicht-generative Alternative zu multimodalen LLMs, die traditionelle Modelle sowohl in Geschwindigkeit als auch in Genauigkeit übertrifft. * Nicht-Generativ & Echtzeit: Das erste Modell seiner Art, das auf einer gemeinsamen Einbettungs-vorhersage-Architektur basiert und allgemeine vision-sprachliche Aufgaben in Echtzeit ermöglicht. * Überlegene Leistung: Durch die Vorhersage im latenten Raum anstelle von Datensatz-Token übertrifft es in kontrollierten Experimenten konsequent generative VLMs. * Streaming-Effizienz: Sein nicht-autoregressives Design ermöglicht selektives Decodieren und bietet massive Effizienzgewinne für Online-Videoanwendungen. * Einheitliche Architektur: Ein einzelnes Modell, das gleichzeitig Klassifikations-, Abruf- und VQA-Aufgaben meistert.