Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jeg leste nettopp denne nye artikkelen som knuste hjernen 🤯 min fullstendig
Forskere fant ut hvordan man overfører LoRA-adaptere mellom helt forskjellige AI-modeller uten treningsdata, og det fungerer bedre enn metoder som krever massive datasett.
Det heter TITOK, og her er den ville delen:
I stedet for å kopiere alt fra kildemodellen, overfører de bare tokenene som faktisk betyr noe. De gjør dette ved å sammenligne modellen med og uten LoRA for å finne hvor adapteren tilfører reell verdi.
Tenk på det slik: Hvis den justerte modellen er sikker på et token, men basismodellen ikke er det, inneholder dette tokenet kunnskapen du vil overføre.
Resultatene er vanvittige:
+8% bedre enn vaniljemodeller
+6 % bedre enn tradisjonell kunnskapsdestillasjon
+4.4% bedre enn TransLoRA
Og det fungerer på tvers av ville scenarier:
→ Mistral til Lama (forskjellige familier)
→ 3B til 8B-modeller (forskjellige størrelser)
→ Llama 2 til Llama 3 (forskjellige versjoner)
Den drepende fordelen? Ingen ekstra modeller nødvendig. TransLoRA krever opplæring av en egen diskriminator bare for å filtrere syntetiske data. TITOK bruker selve kildemodellen for å identifisere viktige tokens.
Enda sprøere: de håndterer forskjellige tokenizere automatisk. Når modeller deler tekst forskjellig, justerer algoritmen tokenene og sprer viktighetspoeng over gapet.
Dette er ikke bare akademisk. Hver gang en ny modell slippes, blir de finjusterte adapterne dine foreldet. TITOK betyr at du kan migrere den hardt tilkjempede kunnskapen til en hvilken som helst ny ryggrad i løpet av timer, ikke uker.
Vi gikk bare fra «hver modell trenger sin egen adapter» til «kunnskap flyter fritt mellom modellene».
...

Topp
Rangering
Favoritter