Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DEN 9-ÅRIGA VÄGEN TILL DEEPSEEKS HYPER-KOPPLINGAR
Gott Nytt År! Jag har tillbringat de senaste två dagarna i ett djupt kaninhål om ursprunget till DeepSeek-artikeln om Manifold-begränsade Hyper Connections. Det kom lite oväntat, så jag grävde i äldre verk som byggs vidare på.
-> Allt börjar med ResNets år 2016 (x_{l+1} = x_l + F(x_l)-formuleringen). Han med flera visade att identitetstermen som passerar omodifierat är det som gör djupa nätverk överhuvudtaget tränabara.
-> DenseNet och FractalNet (2016-17) försökte koppla varje lager till varje annat lager. Det fungerade bättre men anslutningarna var fixade, så nätverket lärde sig inget av det
-> Tät Former förra året gjorde genomsnittliga vikter lärbara. Du får en viktad kombination av alla tidigare lagerutgångar (men fortfarande bara en kvarvarande ström)
-> Hyper-Connections från september 2024 gick i en annan riktning. Istället för fler kopplingar gör de strömmen bredare. Expandera från C till n×C-dimensioner, lägg till lärbara blandningsmatriser mellan de n strömmarna
-> Här blir det intressant! När du staplar lager multipliceras dessa blandningsmatriser tillsammans. Om de är obundna kan produkten explodera. DeepSeek fann förstärkningsmagnituder runt 3000 gånger i sina 27B-modeller. Hela poängen med identitetskartläggningen är borta.
mHC åtgärdar detta genom att begränsa mixningsmatriserna till att vara dubbelt stokastiska via Sinkhorn-Knopp-iterationer. Dessa matriser har spektralnorm <= 1 och förblir dubbelt stokastiska när de multipliceras tillsammans. Vinsten sjunker till ~1,6x.
Det finns en fin koppling till Sinkformers-artikeln från 2021 som tillämpade Sinkhorn på uppmärksamhetsmatriser. mHC gör samma sak men för kvarvarande kopplingar!
Slutresultat = stabil träning, slår både baslinje- och instabil HC, 6,7 % overhead efter systemoptimering!!
Den kvarvarande kopplingen har i stort sett varit orörd sedan 2016. Det här kan vara början på något stort LFG

Topp
Rankning
Favoriter
