Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DEN 9-ÅRIGE VEIEN TIL DEEPSEEKS HYPERFORBINDELSER
Godt nytt år! Jeg har tilbrakt de siste to dagene i et dypt kaninhull om opprinnelsen til DeepSeek-artikkelen om Manifold-begrensede hyperforbindelser. Det kom litt ut av det blå, så jeg gravde i eldre verk det bygger videre på.
-> Alt starter med ResNets i 2016 (x_{l+1} = x_l + F(x_l)-formuleringen). Han et al. viste at identitetsbegrepet som passerer uendret er det som gjør dype nettverk trenbare i det hele tatt.
-> DenseNet og FractalNet (2016-17) prøvde å koble hvert lag til hvert annet lag. Det fungerte bedre, men tilkoblingene var fikset, så ingenting nettverket lærte
-> DenseFormer i fjor gjorde gjennomsnittsvektene lærbare. Du får en vektet kombinasjon av alle tidligere lagutganger (men fortsatt bare én reststrøm)
-> Hyper-Connections fra september 2024 gikk i en annen retning. I stedet for flere forbindelser, gjør de strømmen bredere. Utvid fra C til n×C-dimensjoner, legg til lærbare miksematriser mellom n-strømmene
-> Her blir det interessant! Når du stabler lag, multipliserer disse blandingsmatrisene seg sammen. Hvis de ikke er begrenset, kan produktet eksplodere. DeepSeek fant gevinststyrker rundt 3000 ganger i sine 27B-modeller. Hele poenget med identitetskartleggingen er borte.
mHC løser dette ved å begrense blandingsmatrisene til å være dobbelt stokastiske via Sinkhorn-Knopp-iterasjoner. Disse matrisene har spektralnorm <= 1 og forblir dobbelt stokastiske når de multipliseres sammen. Gevinsten faller til ~1,6x.
Det er en fin kobling til Sinkformers-artikkelen fra 2021 som anvendte Sinkhorn på oppmerksomhetsmatriser. mHC gjør det samme, men for restforbindelser!
Sluttresultat = stabil trening, slår både baseline og ustabil HC, 6,7 % overhead etter systemoptimalisering!!
Den gjenværende forbindelsen har stort sett vært urørt siden 2016. Dette kan være starten på noe stort LFG

Topp
Rangering
Favoritter
