DRUMUL DE 9 ANI CĂTRE HIPER-CONEXIUNILE DEEPSEEK An Nou Fericit! Am petrecut ultimele două zile într-o adevărată gaură de iepure despre originile lucrării DeepSeek despre Manifold Limitated Hyper Connections. A apărut cam din senin, așa că am studiat lucrări mai vechi peste care se construiește. -> Totul începe cu ResNets în 2016 (formularea x_{l+1} = x_l + F(x_l)). He et al. au arătat că termenul de identitate care trece prin nemodificat este ceea ce face ca rețelele profunde să poată fi antrenate. -> DenseNet și FractalNet (2016-17) au încercat să conecteze fiecare strat la fiecare alt strat. A funcționat mai bine, dar conexiunile erau fixe, deci nu a fost nimic învățat de rețea -> DenseFormer anul trecut a făcut greutățile de medie ușor de învățat. Obții o combinație ponderată a tuturor ieșirilor de straturi anterioare (dar tot un singur flux rezidual) -> Hyper-Connections din septembrie 2024 a mers într-o direcție diferită. În loc de mai multe conexiuni, fac fluxul mai larg. Extinde de la C la n×C dimensiuni, adaugă matrici de amestecare învățabile între cele n fluxuri -> Aici devine interesant! Când stivuiești straturi, acele matrici de amestecare se înmulțesc între ele. Dacă nu sunt constrânse, produsul poate exploda. DeepSeek a găsit magnitudini de câștig în jur de 3000x în modelele lor de 27B. Întregul scop al mapării identității a dispărut. mHC rezolvă acest lucru constrângând matricile de amestec să fie dublu stocastice prin iterații Sinkhorn-Knopp. Aceste matrici au norma spectrală <= 1 și rămân dublu stocastice atunci când sunt înmulțite împreună. Câștigul scade la ~1,6x. Există o legătură frumoasă cu articolul Sinkformers din 2021, care a aplicat Sinkhorn la matricele de atenție. mHC face același lucru, dar pentru conexiuni reziduale! Rezultatul final = antrenament stabil, depășește atât HC-ul de bază, cât și cel instabil, 6,7% overhead după optimizarea sistemului!! Conexiunea reziduală a rămas practic neatinsă din 2016. Acesta ar putea fi începutul a ceva mare, LFG,