Hypotesen om universell vekt i delrommet Våre funn gir nye innsikter i den iboende organiseringen av informasjon i dype nettverk og reiser viktige spørsmål om muligheten for å oppdage disse universelle delrommene uten behov for omfattende data og beregningsressurser. ... Ved å utføre lagvise spektrale dekomponeringer og kun beholde de ledende hovedretningene, kan en nøyaktig tilnærming til disse universelle delrommene utvinnes. Empirisk viser denne oppførselen seg bredt: i fullt finjusterte modeller og LoRA-baserte adaptere, i modeller trent fra bunnen av, både i generative og diskriminerende settinger, og i multimodale konfigurasjoner. Dessuten generaliseres de tilnærmede delrommene til oppgaver utenfor distribusjon, hvor projisering av modeller og læring av bare et lite sett med koeffisienter er tilstrekkelig for å gjenopprette sterk ytelse. Dette gjør det mulig å tilpasse seg nye oppgaver uten å måtte omskolere eller lagre hele vekter, og støtter robust multitask-læring, skalerbar finjustering og prinsippfast modellsammensmelting innenfor ett enhetlig rammeverk. De praktiske konsekvensene er betydelige. Ved å gjenbruke et felles sett med lagvise hovedretninger og kun lære lette koeffisienter per oppgave, kan store modeller utvides og leveres med dramatisk redusert beregnings-, minne- og ingeniøroverhead. ... Vi kan effektivt resirkulere og erstatte tilgjengelige forhåndstrente modeller med en universell delromsmodell, der hvert individ representeres av et tynt sett med koeffisienter. I denne delen viser vi et sett med eksperimenter hvor vi bruker de universelle delrommene for å lære nye oppgaver ved å fryse komponentene og ganske enkelt lære koeffisientene ved hjelp av gradientnedstigning. Vi finner at siden vi bare lærer koeffisientene, reduserer det drastisk antall parametere som kreves for å trene de nye modellene. Videre, siden disse koeffisientene bare er lineære skaleringsverdier, er optimaliseringen jevnere og raskere.