Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hypotesen om universell vekt i delrommet
Våre funn gir nye innsikter i den iboende organiseringen av informasjon i dype nettverk og reiser viktige spørsmål om muligheten for å oppdage disse universelle delrommene uten behov for omfattende data og beregningsressurser.
... Ved å utføre lagvise spektrale dekomponeringer og kun beholde de ledende hovedretningene, kan en nøyaktig tilnærming til disse universelle delrommene utvinnes. Empirisk viser denne oppførselen seg bredt: i fullt finjusterte modeller og LoRA-baserte adaptere, i modeller trent fra bunnen av, både i generative og diskriminerende settinger, og i multimodale konfigurasjoner. Dessuten generaliseres de tilnærmede delrommene til oppgaver utenfor distribusjon, hvor projisering av modeller og læring av bare et lite sett med koeffisienter er tilstrekkelig for å gjenopprette sterk ytelse. Dette gjør det mulig å tilpasse seg nye oppgaver uten å måtte omskolere eller lagre hele vekter, og støtter robust multitask-læring, skalerbar finjustering og prinsippfast modellsammensmelting innenfor ett enhetlig rammeverk.
De praktiske konsekvensene er betydelige. Ved å gjenbruke et felles sett med lagvise hovedretninger og kun lære lette koeffisienter per oppgave, kan store modeller utvides og leveres med dramatisk redusert beregnings-, minne- og ingeniøroverhead.
... Vi kan effektivt resirkulere og erstatte tilgjengelige forhåndstrente modeller med en universell delromsmodell, der hvert individ representeres av et tynt sett med koeffisienter. I denne delen viser vi et sett med eksperimenter hvor vi bruker de universelle delrommene for å lære nye oppgaver ved å fryse komponentene og ganske enkelt lære koeffisientene ved hjelp av gradientnedstigning. Vi finner at siden vi bare lærer koeffisientene, reduserer det drastisk antall parametere som kreves for å trene de nye modellene. Videre, siden disse koeffisientene bare er lineære skaleringsverdier, er optimaliseringen jevnere og raskere.

Topp
Rangering
Favoritter
