Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 10
LeJEPA: Învățare autosupravegheată demonstrabilă și scalabilă fără euristici
Comentariile la #PaperADay 3 au recomandat această lucrare ca fiind cea mai modernă hârtie JEPA și arată mult mai bine!
Ei recunosc că o mare parte din cercetările anterioare JEPA sunt ad-hoc și pline de euristici, dar aici fac afirmații teoretice puternice privind optimalitatea și oferă demonstrații (pe care nu le-am citit).
Prima afirmație este că gaussiana izotropă este distribuția optimă unică de încorporare atât pentru sondarea liniară, cât și pentru cea neliniară, minimizând riscul în cel mai rău caz între sarcinile ulterioare. Aș fi luat asta cu încredere doar cu un "sună bine pentru mine", dar ei intră în detalii și exemple.
De fapt, obținerea unei gaussiane izotrope în dimensiuni mari este mai ușor de spus decât de făcut. Ei prezintă Regularizarea Gaussiană Izotropă Schițată (SIGReg) ca o funcție de pierdere bine comportată pentru a realiza acest lucru, după analizarea mai multor teste statistice diferite, și susțin că aceasta depășește blestemul dimensionalității prin scalabilitate liniară.
Pierderea finală este doar un factor de amestec pentru a cântări pierderea de predicție JEPA în raport cu pierderea de izotropie SIGReg. Acesta este singurul hiperparametru reglabil pentru LeJEPA.
În ciuda P-ului din JEPA, aici nu folosesc rețele predictoare, ci doar compară direct încorporarea de vizualizare pentru pierderea JEPA. Rețelele predictoare ar putea fi totuși utile pentru secvențe video, mai ales atunci când sunt condiționate cu informații de acțiune pentru agenți/roboți.
Fiecare imagine de antrenament este augmentată pentru a produce 2 vizualizări globale și 6 vizualizări locale cu scale spațiale diferite, dar același set de transformări de culoare și geometrice. Pierderea este media MSE-ului dintre media încorporațiilor de vizualizare globală și fiecare dintre încorporațiile de vizualizare locală.
Nu am o idee bună despre compromisurile transformărilor lor de vizualizare, care par totuși foarte mult în spațiul ad-hoc, dar ele vor determina natura a ceea ce este filtrat din reprezentare. A învăța ce nu contează este esențial, dar specificarea "contează" este doar implicită în transformările de vizualizare.
LeJEPA în sine este independent de arhitectură – orice proces care digeră un lot de probe dintr-un set de date în vectori poate fi folosit. Transformatoare de viziune, MLP, ConvNet-uri etc. Augmentările specifice pentru vizualizări ar fi specifice modalității de intrare, dar algoritmul LeJEPA ar putea funcționa pe audio, imagini, video sau alte lucruri.
Ei arată că pierderea LeJEPA pe un model mare de fundație este foarte indicativă pentru performanța sarcinilor în aval, atât direct, cât și cu o euristică pentru a îmbunătăți mai mult puterea predictivă a pierderii.
De asemenea, arată că poate fi folosit pentru a se antrena de la zero pe seturi de date mici, cu doar 1000 de eșantioane, obținând rezultate mai bune decât sondarea unui model convențional general de fundație.
Am fost încântat să văd blocuri de cod exemplu în hârtie în loc de pseudocod încărcat cu greacă, precum și un depozit github.
Anexa D conține detalii interesante despre generarea unei acoperiri bune a hipersferelor unitare cu eșantioane cu discrepanțe mici prin transformarea secvențelor Sobol, dar acestea sunt doar pentru analiza lor teoretică, iar ei arată că este mai bine să creezi hipervectori aleatori noi la fiecare lot, chiar și 16 vectori aleatori depășind un set fix de mii.
Câteva întrebări:...
Limită superioară
Clasament
Favorite
