DEN 9-ÅRIGE VEIEN TIL DEEPSEEKS HYPERFORBINDELSER Godt nytt år! Jeg har tilbrakt de siste to dagene i et dypt kaninhull om opprinnelsen til DeepSeek-artikkelen om Manifold-begrensede hyperforbindelser. Det kom litt ut av det blå, så jeg gravde i eldre verk det bygger videre på. -> Alt starter med ResNets i 2016 (x_{l+1} = x_l + F(x_l)-formuleringen). Han et al. viste at identitetsbegrepet som passerer uendret er det som gjør dype nettverk trenbare i det hele tatt. -> DenseNet og FractalNet (2016-17) prøvde å koble hvert lag til hvert annet lag. Det fungerte bedre, men tilkoblingene var fikset, så ingenting nettverket lærte -> DenseFormer i fjor gjorde gjennomsnittsvektene lærbare. Du får en vektet kombinasjon av alle tidligere lagutganger (men fortsatt bare én reststrøm) -> Hyper-Connections fra september 2024 gikk i en annen retning. I stedet for flere forbindelser, gjør de strømmen bredere. Utvid fra C til n×C-dimensjoner, legg til lærbare miksematriser mellom n-strømmene -> Her blir det interessant! Når du stabler lag, multipliserer disse blandingsmatrisene seg sammen. Hvis de ikke er begrenset, kan produktet eksplodere. DeepSeek fant gevinststyrker rundt 3000 ganger i sine 27B-modeller. Hele poenget med identitetskartleggingen er borte. mHC løser dette ved å begrense blandingsmatrisene til å være dobbelt stokastiske via Sinkhorn-Knopp-iterasjoner. Disse matrisene har spektralnorm <= 1 og forblir dobbelt stokastiske når de multipliseres sammen. Gevinsten faller til ~1,6x. Det er en fin kobling til Sinkformers-artikkelen fra 2021 som anvendte Sinkhorn på oppmerksomhetsmatriser. mHC gjør det samme, men for restforbindelser! Sluttresultat = stabil trening, slår både baseline og ustabil HC, 6,7 % overhead etter systemoptimalisering!! Den gjenværende forbindelsen har stort sett vært urørt siden 2016. Dette kan være starten på noe stort LFG