Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DRUMUL DE 9 ANI CĂTRE HIPER-CONEXIUNILE DEEPSEEK
An Nou Fericit! Am petrecut ultimele două zile într-o adevărată gaură de iepure despre originile lucrării DeepSeek despre Manifold Limitated Hyper Connections. A apărut cam din senin, așa că am studiat lucrări mai vechi peste care se construiește.
-> Totul începe cu ResNets în 2016 (formularea x_{l+1} = x_l + F(x_l)). He et al. au arătat că termenul de identitate care trece prin nemodificat este ceea ce face ca rețelele profunde să poată fi antrenate.
-> DenseNet și FractalNet (2016-17) au încercat să conecteze fiecare strat la fiecare alt strat. A funcționat mai bine, dar conexiunile erau fixe, deci nu a fost nimic învățat de rețea
-> DenseFormer anul trecut a făcut greutățile de medie ușor de învățat. Obții o combinație ponderată a tuturor ieșirilor de straturi anterioare (dar tot un singur flux rezidual)
-> Hyper-Connections din septembrie 2024 a mers într-o direcție diferită. În loc de mai multe conexiuni, fac fluxul mai larg. Extinde de la C la n×C dimensiuni, adaugă matrici de amestecare învățabile între cele n fluxuri
-> Aici devine interesant! Când stivuiești straturi, acele matrici de amestecare se înmulțesc între ele. Dacă nu sunt constrânse, produsul poate exploda. DeepSeek a găsit magnitudini de câștig în jur de 3000x în modelele lor de 27B. Întregul scop al mapării identității a dispărut.
mHC rezolvă acest lucru constrângând matricile de amestec să fie dublu stocastice prin iterații Sinkhorn-Knopp. Aceste matrici au norma spectrală <= 1 și rămân dublu stocastice atunci când sunt înmulțite împreună. Câștigul scade la ~1,6x.
Există o legătură frumoasă cu articolul Sinkformers din 2021, care a aplicat Sinkhorn la matricele de atenție. mHC face același lucru, dar pentru conexiuni reziduale!
Rezultatul final = antrenament stabil, depășește atât HC-ul de bază, cât și cel instabil, 6,7% overhead după optimizarea sistemului!!
Conexiunea reziduală a rămas practic neatinsă din 2016. Acesta ar putea fi începutul a ceva mare, LFG,

Limită superioară
Clasament
Favorite
