Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bare les gjennom den nye LeJEPA-artikkelen av Yann LeCun og Randall Balestriero. Jeg har vært nysgjerrig på å vite hva Yann har jobbet med i det siste, spesielt med tanke på all hans kritikk av LLM-er (som jeg er uenig i, da jeg tror LLM-er vil fortsette å forbedre seg og vil ta oss til ASI ganske snart).
Uansett, det er allerede flere tråder på X om artikkelen og hva den introduserer. Kortversjonen er at det er en prinsipiell, teoretisk begrunnet og sparsommelig tilnærming til selvovervåket læring som erstatter et komplekst sammensurium av ad-hoc, hacky heuristikk for å forhindre moduskollaps, som er banen for selvovervåket læring.
Det er der modellen skrur seg opp og begynner å kartlegge alle innganger til nesten identiske innebygginger eller til et smalt underrom av innebygginger, og kollapser all rikdommen i problemet til en patologisk enkel og feil korrespondanse.
Den første pilaren i den nye tilnærmingen er deres bevis på at isotrope Gaussiske fordelinger unikt minimerer verste fall nedstrøms prediksjonsrisiko.
Så snart jeg leste det, tenkte jeg umiddelbart på CMA-ES, den beste tilgjengelige black-box-optimaliseringsalgoritmen for når du ikke har tilgang til gradienten til funksjonen du prøver å minimere, men bare kan gjøre (dyre/trege) funksjonsevalueringer.
Nikolaus Hansen har jobbet med CMA-ES siden han introduserte det helt tilbake i 1996. Jeg har alltid vært fascinert av denne tilnærmingen og brukte den med stor suksess til å effektivt utforske hyperparametere til dype nevrale nett tilbake i 2011 i stedet for å gjøre ineffektive rutenettsøk.
Uansett, grunnen til at jeg tar det opp er fordi det er en slående parallell og dyp forbindelse mellom den tilnærmingen og kjernen i LeJEPA.
CMA-ES sier: Start med en isotrop Gaussisk fordi det er den maksimale entropifordelingen (minst partisk) gitt bare variansbegrensninger. Tilpass deretter kovariansen for å lære problemets geometri.
LeJEPA sier: Oppretthold en isotrop Gaussisk fordi det er den maksimale entropifordelingen (minst partisk) for ukjente fremtidige oppgaver.
Begge erkjenner at isotropi er optimal under usikkerhet av tre grunner:
Prinsippet om maksimal entropi; Blant alle fordelinger med fast varians har den isotrope Gaussiske maksimal entropi; Det vil si at den gjør færrest antakelser.
Det er ingen retningsbestemt skjevhet; Lik varians i alle retninger betyr at du ikke forplikter deg til en bestemt problemstruktur på forhånd.
Du får verste fall optimalitet; Minimer maksimal anger på tvers av alle mulige problemgeometrier.
Så hva er forskjellen? Det kommer ned til tilpasningstidspunkt. CMA-ES kan tilpasse seg under optimalisering; Den starter isotropisk, men blir deretter anisotrop når den lærer det spesifikke optimaliseringslandskapet.
Derimot må LeJEPA forbli isotropisk fordi den forbereder seg på ukjente nedstrømsoppgaver som ikke er sett ennå.
...

Topp
Rangering
Favoritter

