Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DE 9-JAAR ROAD NAAR DE HYPER-VERBINDINGEN VAN DEEPSEEK
Gelukkig Nieuwjaar! Ik heb de afgelopen twee dagen in een diepe konijnenhol doorgebracht over de oorsprong van het DeepSeek-paper over Manifold beperkte Hyper Verbindingen. Het kwam een beetje uit het niets, dus ik heb oudere werken onderzocht waar het op voortbouwt.
-> Het begint allemaal met ResNets in 2016 (de x_{l+1} = x_l + F(x_l) formulering). He et al. toonden aan dat de identiteitsterm die ongewijzigd doorgaat, is wat diepe netwerken überhaupt trainbaar maakt.
-> DenseNet en FractalNet (2016-17) probeerden elke laag met elke andere laag te verbinden. Werkt beter, maar de verbindingen waren vast, dus er werd niets geleerd door het netwerk.
-> DenseFormer vorig jaar maakte de gemiddelde gewichten leerbaar. Je krijgt een gewogen combinatie van alle outputs van de vorige lagen (maar nog steeds maar één residuele stroom).
-> Hyper-Verbinden vanaf september 2024 ging in een andere richting. In plaats van meer verbindingen, maken ze de stroom breder. Breid uit van C naar n×C dimensies, voeg leerbare mengmatrices toe tussen de n stromen.
-> Hier wordt het interessant! Wanneer je lagen stapelt, vermenigvuldigen die mengmatrices met elkaar. Als ze niet beperkt zijn, kan het product exploderen. DeepSeek vond versterkingsgroottes rond 3000x in hun 27B-modellen. Het hele punt van de identiteitsmapping is verdwenen.
mHC lost dit op door de mengmatrices te beperken tot dubbel stochastic via Sinkhorn-Knopp-iteraties. Deze matrices hebben een spectrale norm <= 1 en blijven dubbel stochastic wanneer ze met elkaar worden vermenigvuldigd. De versterking daalt naar ~1.6x.
Er is een mooie verbinding met het Sinkformers-paper van 2021 dat Sinkhorn toepaste op aandachtmatrices. mHC doet hetzelfde, maar voor residuele verbindingen!
Eindresultaat = stabiele training, overtreft zowel baseline als onstabiele HC, 6,7% overhead na systeemoptimalisatie!!!
De residuele verbinding is sinds 2016 eigenlijk ongewijzigd gebleven. Dit zou het begin kunnen zijn van iets groots LFG

Boven
Positie
Favorieten
