#PaperADay 10 LeJEPA: Apprendimento Auto-Supervisionato Provabile e Scalabile Senza Euristiche I commenti su #PaperADay 3 hanno raccomandato questo articolo come il miglior articolo JEPA, e sembra davvero molto migliore! Riconoscono che gran parte della ricerca JEPA precedente è ad-hoc e piena di euristiche, ma qui fanno forti affermazioni teoriche di ottimalità e forniscono prove (che non ho letto). La prima affermazione è che la gaussiana isotropica è l'unica distribuzione di embedding ottimale sia per il probing lineare che non lineare, minimizzando il rischio peggiore tra i compiti downstream. Avrei accettato questo per fede con un semplice "mi sembra buono", ma entrano nei dettagli e negli esempi. Ottenere effettivamente una gaussiana isotropica in alte dimensioni è più facile a dirsi che a farsi. Presentano la Regolarizzazione Gaussiana Isotropa Schizzata (SIGReg) come una funzione di perdita ben comportata per raggiungere questo obiettivo dopo aver analizzato diversi test statistici, e affermano che supera la maledizione della dimensionalità con scalabilità lineare. La perdita finale è solo un fattore di miscelazione per pesare la perdita di previsione JEPA rispetto alla perdita di isotropia SIGReg. Questo è l'unico iperparametro regolabile per LeJEPA. Nonostante la P in JEPA, non usano reti predittive qui, confrontano direttamente gli embedding delle viste per la perdita JEPA. Le reti predittive potrebbero comunque essere utili per sequenze video, specialmente quando condizionate con informazioni sulle azioni per agenti / robot. Ogni immagine di addestramento è aumentata per produrre 2 viste globali e 6 viste locali con diverse scale spaziali ma lo stesso insieme di trasformazioni cromatiche e geometriche. La perdita è la MSE media tra la media degli embedding delle viste globali e ciascuno degli embedding delle viste locali. Non ho una buona percezione dei compromessi nelle loro trasformazioni delle viste, che sembrano ancora molto ad-hoc, ma determineranno la natura di ciò che viene filtrato dalla rappresentazione. Imparare ciò che non conta è fondamentale, ma la specificazione di "cosa conta" è solo implicita nelle trasformazioni delle viste. LeJEPA stessa è indipendente dall'architettura – qualsiasi cosa che digerisca un lotto di campioni da un dataset in vettori può essere utilizzata. Trasformatori visivi, MLP, ConvNets, ecc. Le specifiche aumentazioni per le viste sarebbero specifiche per la modalità di input, ma l'algoritmo LeJEPA potrebbe funzionare su audio, immagini, video o altre cose. Mostrano che la perdita LeJEPA su un grande modello di base è molto indicativa delle prestazioni nei compiti downstream, sia direttamente che con un'euristica per migliorare il potere predittivo della perdita ulteriormente. Mostrano anche che può essere utilizzato per addestrare da zero su piccoli dataset con appena 1000 campioni e ottenere risultati migliori rispetto al probing di un modello di base generale convenzionale. Sono stato contento di vedere blocchi di codice di esempio nell'articolo invece di pseudocodice pieno di greco, così come un repository github. L'Appendice D ha dettagli interessanti sulla generazione di una buona copertura di ipersfere unitarie con campioni a bassa discrepanza trasformando le sequenze di Sobol, ma questo è solo per la loro analisi teorica, e mostrano che è meglio semplicemente creare nuovi ipervettori casuali ogni lotto, con anche 16 vettori casuali che superano un insieme fisso di migliaia. ...