Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 10
LeJEPA: Bevisbar og skalerbar selvveiledet læring uten heuristikker
Kommentarene på #PaperADay 3 anbefalte denne artikkelen som den nyeste JEPA-artikkelen, og den ser mye bedre ut!
De erkjenner at mye av den tidligere JEPA-forskningen er ad hoc og full av heuristikker, men her fremsetter de sterke teoretiske påstander om optimalitet og gir bevis (som jeg ikke leste).
Den første påstanden er at isotrop gaussian er den unike optimale innleiringsfordelingen for både lineær og ikke-lineær probing, og minimerer verstefallsrisiko på tvers av nedstrøms oppgaver. Jeg ville tatt det på tro med bare «høres bra ut for meg», men de går inn i det med detaljer og eksempler.
Å faktisk få en isotrop gaussian i høye dimensjoner er lettere sagt enn gjort. De presenterer Sketched Isotropic Gaussian Regularization (SIGReg) som en veloppført tapsfunksjon for å oppnå dette etter å ha analysert en rekke ulike statistiske tester, og de hevder at den slår dimensjonalitetens forbannelse med lineær skalerbarhet.
Det endelige tapet er bare en blandingsfaktor for å veie JEPA-prediksjonstapet mot SIGReg-isotropi-tapet. Dette er den ene justerbare hyperparameteren for LeJEPA.
Til tross for P-en i JEPA, bruker de ikke prediktornettverk her, de sammenligner bare direkte visningsinnlegginger for JEPA-tapet. Prediktornettverk kan fortsatt være nyttige for videosekvenser, spesielt når de er kondisjonert med handlingsinformasjon for agenter / roboter.
Hvert treningsbilde utvides for å produsere 2 globale visninger og 6 lokale visninger med ulike romlige skalaer, men samme sett med farge- og geometriske transformasjoner. Tapet er gjennomsnittlig MSE mellom gjennomsnittet av de globale view-embeddingene og hver av de lokale view-embeddingene.
Jeg har ikke god følelse for avveiningene i deres synstransformasjoner, som fortsatt virker veldig i ad hoc-rommet, men de vil avgjøre hva som filtreres ut fra representasjonen. Å lære hva som ikke betyr noe er avgjørende, men spesifikasjonen av "betyr noe" er bare implisitt i visningstransformasjonene.
LeJEPA i seg selv er arkitekturuavhengig – alt som omdanner en batch med prøver fra et datasett til vektorer kan brukes. Visjonstransformatorer, MLP, ConvNets, osv. De spesifikke augmentasjonene for visninger vil være spesifikke for input-modalitet, men LeJEPA-algoritmen kan fungere på lyd, bilder, video eller andre ting.
De viser at LeJEPA-tapet på en stor grunnlagsmodell er svært indikativ for ytelse nedstrøms, både direkte og med en heuristikk for å forbedre prediktiviteten til tapet ytterligere.
De viser også at det kan brukes til å trene fra bunnen av på små datasett med så få som 1000 prøver og oppnå bedre resultater enn å undersøke en konvensjonell generell grunnlagsmodell.
Jeg ble glad for å se eksempelkodeblokker i artikkelen i stedet for gresk-ladet pseudokode, samt et github-repo.
Vedlegg D har interessante detaljer om å generere god dekning av enhetshypersfærer med lave avviksprøver ved å transformere Sobol-sekvenser, men dette er kun for deres teoretiske analyse, og de viser at du er bedre tjent med å lage nye tilfeldige hypervektorer hver batch, med selv 16 tilfeldige vektorer som overgår et fast sett på tusenvis.
Noen spørsmål:...
Topp
Rangering
Favoritter
