Hack-urile nu scalează. Matematica da. DeepSeek tocmai a demonstrat asta. Au scăpat un hit puternic pentru a încheia 2025. "mHC: Hiper-conexiuni cu multiple restricții." Iată de ce contează: Când învățarea profundă a prins avânt, cercetătorii s-au lovit de un zid. Nu poți doar să suprapui straturi la nesfârșit; semnalele fie explodează, fie dispar. Antrenarea rețelelor profunde era aproape imposibilă. ResNets a rezolvat această problemă în 2016 cu conexiuni reziduale: output = input + ce a învățat stratul Acest "+" creează o autostradă directă pentru informații. De aceea putem antrena acum rețele cu sute de straturi. Recent, cercetătorii au întrebat: Ce-ar fi dacă am avea mai multe autostrăzi în loc de una? Hyper-Connections (HC) a extins acea singură bandă în 4 benzi paralele cu matrici învățabile care combină informații între fluxuri. Câștigurile de performanță au fost reale. Dar era o problemă: Aceste matrici de amestecare se compun pe straturi. O mică amplificare de 5% pe strat devine de 18x după 60 de straturi. Lucrarea măsura amplificarea până la 3000x, ceea ce a dus la colapsuri de antrenament. Soluțiile obișnuite: decuparea gradientului, inițializarea atentă și speranța că lucrurile merg bine. DeepSeek s-a întors la principiile de bază: ce constrângere matematică ar garanta stabilitatea? Răspunsul se ascundea într-un algoritm vechi de 59 de ani (Sinkhorn-Knopp 1967) Aceasta forțează matricile de amestecare să fie dublu stocastice, ceea ce înseamnă că rândurile și coloanele se însumează fiecare la 1. Rezultatele: - Instabilitate de 3000x → 1,6x - Stabilitatea garantată de matematică, nu de noroc - Doar 6,7% cheltuieli suplimentare de instruire suplimentară Fără trucuri. Doar matematică. Dacă vrei să citești mai mult, am împărtășit un link către ziar în următorul tweet.
hârtie:
202