#PaperADay 10 LeJEPA: Todistettavissa ja skaalautuva itseohjattu oppiminen ilman heuristiikkoja #PaperADay 3:n kommentit suosittelivat tätä artikkelia huippuluokan JEPA-artikkelina, ja se näyttää paljon paremmalta! He myöntävät, että suuri osa aiemmasta JEPA-tutkimuksesta on ad hoc -menetelmää ja täynnä heuristiikkaa, mutta tässä he esittävät vahvoja teoreettisia väitteitä optimaalisuudesta ja esittävät todistuksia (joita en itse lukenut). Ensimmäinen väite on, että isotrooppinen gaussinen on ainutlaatuinen optimaalinen upotusjakauma sekä lineaarisessa että epälineaarisessa mittauksessa, mikä minimoi pahimman tapauksen riskin alavirran tehtävissä. Olisin ottanut sen vakaasti vain sanomalla "kuulostaa hyvältä minusta", mutta he menevät yksityiskohtiin ja esimerkkeihin. Isotrooppisen gaussin saaminen korkeissa ulottuvuuksissa on helpommin sanottu kuin tehty. He esittävät luonnostellun isotrooppisen Gaussin regularisaation (SIGReg) hyvin käyttäytyvänä häviöfunktiona tämän saavuttamiseksi analysoituaan useita erilaisia tilastollisia testejä, ja he väittävät, että se voittaa dimensioisuuden kirouksen lineaarisella skaalautuvuudella. Lopullinen menetys on vain sekoitustekijä, joka painottaa JEPA-ennusteen menetystä suhteessa SIGReg-isotropian menetykseen. Tämä on ainoa säädettävä hyperparametri LeJEPA:lle. Vaikka JEPA:ssa on P, tässä ei käytetä ennustajaverkkoja, vaan vertaa suoraan näkymäupotuksia JEPA-häviön osalta. Ennustajaverkot voisivat silti olla hyödyllisiä videokohtauksissa, erityisesti kun ne on ehdollistettu agenttien tai robottien toimintatiedon avulla. Jokainen koulutuskuva on laajennettu tuottamaan 2 globaalia ja 6 paikallista näkymää, joissa on erilaiset spatiaaliset mittakaavat, mutta sama joukko väri- ja geometrisia muunnoksia. Häviö on keskimääräinen MSE globaalin näkymän upotusten ja kunkin paikallisen näkymän upotusten keskiarvon välillä. Minulla ei ole hyvää käsitystä heidän näkökulmamuunnostensa kompromisseista, jotka vaikuttavat edelleen hyvin ad-hoc -tilassa, mutta ne määrittävät sen, mitä edustuksesta suodatetaan. On tärkeää oppia se, mikä ei ole merkityksellistä, mutta "matters"-määrittely on implisiittinen vain näkökulman muunnoksissa. LeJEPA itsessään on arkkitehtuurista riippumaton – mitä tahansa, joka sulattaa aineiston näytteet vektoreiksi, voidaan käyttää. Vision transformerit, MLP, ConvNets jne. Katselukertojen erityiset parannukset olisivat syötemodaliteettikohtaisia, mutta LeJEPA-algoritmi voisi toimia myös äänen, kuvien, videon tai muiden asioiden kanssa. Ne osoittavat, että LeJEPA-häviö suuressa perustamallissa on hyvin osoitus alavirran tehtävien suorituskyvystä sekä suoraan että heuristiikan avulla, joka parantaa menetyksen ennustavaa voimaa entisestään. He osoittavat myös, että sitä voidaan käyttää alusta alkaen pienten aineistojen harjoitteluun, joissa on vain 1000 näytettä, ja saavuttaa parempia tuloksia kuin perinteisen yleisen perustan mallin tutkiminen. Olin iloinen nähdessäni paperissa esimerkkikoodilohkoja kreikkalaissävyisen pseudokoodin sijaan, sekä github-repon. Liitteessä D on mielenkiintoisia yksityiskohtia siitä, miten tuottaa hyvä kattavuus yksikköhypersfääreistä, joilla on matala ero, muuntamalla Sobol-sekvenssejä, mutta tämä koskee vain heidän teoreettista analyysiään, ja ne osoittavat, että on parempi tehdä uusia satunnaisia hypervektoreita joka erässä, jopa 16 satunnaisvektoria päihittää kiinteän tuhansien joukon. Muutama kysymys:...