#PaperADay 3 (in der Hoffnung, dass eingebettete Links genug entwertet werden, damit nicht zu viele Leute mit diesem Inhalt genervt sind) @ylecun war in letzter Zeit ein aktuelles Thema, also habe ich heute Folgendes durchgesehen: Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture Ich bin im Großen und Ganzen mit der Idee einverstanden, dass die wichtigen Vorhersagen interne Repräsentationen und nicht Pixel sind, sodass generative Modelle in vielerlei Hinsicht kontraproduktiv oder zumindest unnötig ineffizient für viele Aufgaben sein könnten. Ich tendiere jedoch dazu zu denken, dass die interne Vorhersage auf einer granulareren Ebene als der vollständigen Bildverarbeitung stattfinden muss, auf der Minikolumnen- oder sogar neuronalen Ebene, und mit mehr zeitlichem Bezug als lokaler Maskierung. Selbstüberwachtes Training funktioniert auf einem großen Datensatz, ohne zu wissen, was später vom Modell verlangt wird, und baut einfach Wissen aus den Daten auf. Danach kann man einen einfachen linearen Klassifikator (lineare Probe) auf dem Output trainieren und erhält eine ziemlich gute Leistung. Die besten linearen Proben auf eingefrorenen selbstüberwachten Modellen sind nicht so stark wie end-to-end trainierte Klassifikatoren, aber dasselbe SSM kann für viele verschiedene Aufgaben gleichzeitig stark sein. Das Papier merkt an, dass im Gegensatz zu JEPA die invarianzbasierten Trainingsmethoden, die dasselbe Bild auf zwei verschiedene Arten augmentieren und dabei die repräsentative Ähnlichkeit beibehalten, ihre Leistung auf Kosten eines forschervorbelasteten Satzes von Bildaugmentierungen erzielen, die sich nicht auf andere Modalitäten wie Audio oder Text übertragen lassen. Ich stelle fest, dass JEPA sehr empfindlich auf die genaue Maskierung reagiert (Tabelle 6), was sich nicht allzu unterschiedlich anfühlt. Der Zielencoder ist oberflächlich ähnlich der modernen Formulierung des Zielmodells in DQN RL-Netzwerken mit einem EMA der Gewichte anstelle einer gelegentlichen Kopie, aber während es eine Stabilitätsunterstützung für RL war (und nicht immer notwendig ist), hat es hier einen grundlegenderen Zweck, um zu verhindern, dass das Modell Repräsentationen in triviale Vorhersagen zusammenfallen lässt. Dies, zusammen mit LayerNorm, das auch ein entscheidendes Element davon ist, wird im Papier nicht ausgeführt, und ich musste an anderer Stelle nach Referenzen suchen. Es ist irgendwie eigenartig, dass sie einen zufälligen 0,85-1,0 Zuschnitt auf den Kontext anwenden, aber nur Blöcke von rechts und unten entfernen. Ich hatte erwartet, eine Ablation dieses Zuschnitts zu sehen. Die Erhöhung der Bildauflösung ist eine etwas seltsame Art, das Modell zu skalieren. Es ist wahrscheinlich nicht tatsächlich die Auflösung, die hilft, sondern die Gesamtanzahl der Patches. Es gibt eine große Menge an Arbeiten zur Selbstüberwachung, mit denen ich nur vage vertraut bin, also vermisse ich wahrscheinlich einige wichtige unterscheidende Aspekte von JEPA. Ich kämpfe immer noch mit der Kernfrage, was genau die Kontexte lernen und wie die Modellarchitektur und das Training es davon abhalten, zusammenzubrechen.