#PaperADay 10 LeJEPA: Nachweisbares und skalierbares selbstüberwachtes Lernen ohne Heuristiken Die Kommentare zu #PaperADay 3 empfahlen dieses Papier als das beste JEPA-Papier, und es sieht tatsächlich viel besser aus! Sie erkennen an, dass ein Großteil der vorherigen JEPA-Forschung ad-hoc und voller Heuristiken ist, aber hier machen sie starke theoretische Ansprüche auf Optimalität und liefern Beweise (die ich nicht gelesen habe). Die erste Behauptung ist, dass die isotrope Gaußsche Verteilung die einzigartige optimale Einbettungsverteilung für sowohl lineares als auch nichtlineares Probing ist, die das Worst-Case-Risiko über nachgelagerte Aufgaben minimiert. Ich hätte das mit nur einem "klingt gut für mich" geglaubt, aber sie gehen mit Details und Beispielen darauf ein. Tatsächlich ist es leichter gesagt als getan, eine isotrope Gaußsche Verteilung in hohen Dimensionen zu erhalten. Sie präsentieren die Skizzierte Isotrope Gaußsche Regularisierung (SIGReg) als eine gut funktionierende Verlustfunktion, um dies zu erreichen, nachdem sie eine Reihe von verschiedenen statistischen Tests analysiert haben, und sie behaupten, dass sie den Fluch der Dimensionalität mit linearer Skalierbarkeit überwindet. Der endgültige Verlust ist nur ein Mischfaktor, um den JEPA-Vorhersageverlust gegen den SIGReg-Isotropieverlust zu gewichten. Dies ist der eine einstellbare Hyperparameter für LeJEPA. Trotz des P in JEPA verwenden sie hier keine Prädiktornetzwerke, sie vergleichen einfach direkt die Sicht-Einbettungen für den JEPA-Verlust. Prädiktornetzwerke könnten jedoch für Video-Sequenzen nützlich sein, insbesondere wenn sie mit Aktionsinformationen für Agenten / Roboter konditioniert werden. Jedes Trainingsbild wird augmentiert, um 2 globale Ansichten und 6 lokale Ansichten mit unterschiedlichen räumlichen Skalen, aber dem gleichen Satz von Farb- und geometrischen Transformationen zu erzeugen. Der Verlust ist der durchschnittliche MSE zwischen dem Durchschnitt der globalen Sicht-Einbettungen und jeder der lokalen Sicht-Einbettungen. Ich habe kein gutes Gefühl für die Trade-offs in ihren Sichttransformationen, die immer noch sehr ad-hoc erscheinen, aber sie werden die Art und Weise bestimmen, was aus der Darstellung herausgefiltert wird. Zu lernen, was nicht wichtig ist, ist entscheidend, aber die Spezifikation von "wichtig" ist nur implizit in den Sichttransformationen. LeJEPA selbst ist architekturunabhängig – alles, was eine Batch von Proben aus einem Datensatz in Vektoren umwandelt, kann verwendet werden. Vision-Transformer, MLP, ConvNets usw. Die spezifischen Augmentierungen für Ansichten wären eingabemodality-spezifisch, aber der LeJEPA-Algorithmus könnte auf Audio, Bilder, Video oder andere Dinge angewendet werden. Sie zeigen, dass der LeJEPA-Verlust auf einem großen Grundmodell sehr indikativ für die Leistung nachgelagerter Aufgaben ist, sowohl direkt als auch mit einer Heuristik, um die Vorhersagekraft des Verlusts weiter zu verbessern. Sie zeigen auch, dass es möglich ist, von Grund auf auf kleinen Datensätzen mit so wenigen wie 1000 Proben zu trainieren und bessere Ergebnisse zu erzielen als bei der Untersuchung eines herkömmlichen allgemeinen Grundmodells. Ich war erfreut, Beispielcodeblöcke im Papier zu sehen, anstatt griechisch-belasteten Pseudocode, sowie ein GitHub-Repo. Anhang D enthält interessante Details zur Generierung einer guten Abdeckung von Einheitshypersphären mit niedrigen Diskrepanzproben durch Transformation von Sobol-Sequenzen, aber dies ist nur für ihre theoretische Analyse, und sie zeigen, dass es besser ist, einfach neue zufällige Hypervektoren in jeder Batch zu erstellen, wobei sogar 16 zufällige Vektoren eine feste Menge von Tausenden übertreffen. ...