Es ist lächerlich, dass wir Videogen gelöst haben, indem wir alles in einen Transformer geworfen haben. Alle schönen induktiven Vorurteile für Text folgen einfach nicht wirklich im Video: Machst du Aufmerksamkeit zwischen Pixel-Patches über Zeit und Raum? Und doch funktioniert es fabelhaft gut.
Die gängige Antwort ist, dass die Modelle einfach lernen wollen und Transformer das sind, was wir wirklich gut skalieren können. Aber das wirft die Frage auf, warum Transformer das eine sind, was wir gut skalieren können? Es ist nicht nur ein versunkener Kostenfaktor.
29,77K