Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek tocmai a rezolvat una dintre cele mai vechi probleme ale AI.
(folosind un algoritm vechi de 60 de ani)
Iată povestea:
Când învățarea profundă a prins avânt, cercetătorii s-au lovit de un zid. Nu poți doar să suprapui straturi la nesfârșit. Semnalele fie explodează, fie dispar. Antrenarea rețelelor profunde era aproape imposibilă.
ResNets a rezolvat această problemă în 2016 cu conexiuni reziduale:
output = input + ce a învățat stratul
Acest "+" creează o autostradă directă pentru informații. De aceea putem antrena acum rețele cu sute de straturi.
Recent, cercetătorii au întrebat: ce-ar fi dacă am avea mai multe autostrăzi în loc de una?
Hyper-Connections (HC) a extins acea singură bandă în 4 benzi paralele cu matrici învățabile care combină informații între fluxuri.
Câștigurile de performanță au fost reale. Dar era o problemă:
Aceste matrici de amestecare se compun pe straturi. O mică amplificare de 5% pe strat devine de 18x după 60 de straturi. Hârtia măsura amplificarea ajungând la 3000x. Antrenamentul se prăbușește.
Soluțiile obișnuite? Tăiere de gradient. Inițializare atentă. Sper să meargă bine.
Acestea sunt trucuri. Și hack-urile nu scalează.
DeepSeek s-a întors la principii fundamentale. Ce constrângere matematică ar garanta stabilitatea?
Răspunsul se afla într-un articol din 1967: algoritmul Sinkhorn-Knopp.
Aceasta forțează matricele de amestecare să fie "dublu stocastice", unde rândurile și coloanele se adună fiecare la 1.
Rezultatele:
- Instabilitate de 3000x redusă la 1,6x
- Stabilitatea garantată de matematică, nu de noroc
- Doar 6,7% cheltuieli suplimentare de instruire suplimentară
Fără trucuri. Doar matematică.
Am împărtășit linkul către ziar în următorul tweet.

hârtie:
296
Limită superioară
Clasament
Favorite
