Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 10
LeJEPA: Bevisbar och skalbar självövervakad inlärning utan heuristiker
Kommentarerna på #PaperADay 3 rekommenderade denna artikel som den mest avancerade JEPA-artikeln, och den ser mycket bättre ut!
De erkänner att mycket av den tidigare JEPA-forskningen är ad hoc och full av heuristiker, men här gör de starka teoretiska påståenden om optimalitet och ger bevis (som jag inte läste).
Det första påståendet är att isotrop gaussian är den unika optimala inbäddningsfördelningen för både linjär och icke-linjär probing, vilket minimerar värsta fall-risk över nedströmsuppgifter. Jag hade tagit det på tro med bara ett "låter bra för mig", men de går in på det med detaljer och exempel.
Att faktiskt få en isotrop gaussian i höga dimensioner är lättare sagt än gjort. De presenterar Sketched Isotropic Gaussian Regularization (SIGReg) som en väl uppförd förlustfunktion för att uppnå detta efter att ha analyserat ett antal olika statistiska tester, och de hävdar att den slår dimensionsförbannelsen med linjär skalbarhet.
Den slutliga förlusten är bara en blandningsfaktor för att väga JEPA:s prognosförlust mot SIGReg-isotropiförlusten. Detta är den enda justerbara hyperparametern för LeJEPA.
Trots P:et i JEPA använder de inte prediktornätverk här, de jämför bara direkt view-embeddings för JEPA-förlusten. Prediktornätverk kan fortfarande vara användbara för videosekvenser, särskilt när de konditioneras med handlingsinformation för agenter/robotar.
Varje träningsbild är utökad för att producera 2 globala vyer och 6 lokala vyer med olika rumsliga skalor men samma uppsättning färg- och geometriska transformationer. Förlusten är den genomsnittliga MSE mellan genomsnittet av de globala vy-inbäddningarna och varje lokal vy-inbäddning.
Jag har inte en bra känsla för avvägningarna i deras vytransformationer, som fortfarande verkar vara väldigt ad-hoc-mässiga, men de avgör vad som filtreras bort från representationen. Att lära sig vad som inte spelar roll är avgörande, men specifikationen av "spelar roll" är bara implicit i vytransformationerna.
LeJEPA är själv arkitekturoberoende – allt som omvandlar en batch prover från en datamängd till vektorer kan användas. Visionstransformers, MLP, konvNet, etc. De specifika förstärkningarna för vyer skulle vara specifika för inputmodalitet, men LeJEPA-algoritmen skulle kunna fungera på ljud, bilder, video eller annat.
De visar att LeJEPA-förlusten på en stor grundmodell är mycket indikativ för nedströms uppgiftsprestanda, både direkt och med en heuristik för att ytterligare förbättra förlustens prediktionsförmåga.
De visar också att det kan användas för att träna från grunden på små dataset med så få som 1000 prover och uppnå bättre resultat än att undersöka en konventionell allmän grundmodell.
Jag blev glad att se exempelkodblock i artikeln istället för grekiskt laddad pseudokod, samt ett GitHub-repo.
Appendix D har intressanta detaljer om hur man genererar bra täckning av enhetshypersfärer med låga avvikelseprover genom att transformera Sobol-sekvenser, men detta gäller bara för deras teoretiska analys, och de visar att du har bättre förutsättningar att bara skapa nya slumpmässiga hypervektorer varje batch, där även 16 slumpvektorer presterar bättre än en fast uppsättning av tusentals.
Några frågor:...
Topp
Rankning
Favoriter
