Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek har nettopp fikset et av AIs eldste problemer.
(ved bruk av en 60 år gammel algoritme)
Her er historien:
Da dyp læring tok av, støtte forskerne på en vegg. Du kan ikke bare stable lag i det uendelige. Signalene eksploderer eller forsvinner. Å trene dype nettverk var nesten umulig.
ResNets løste dette i 2016 med residualforbindelser:
output = input + hva laget lærte
Den «+» skaper en direkte motorvei for informasjon. Derfor kan vi nå trene nettverk med hundrevis av lag.
Nylig spurte forskere: hva om vi hadde flere motorveier i stedet for én?
Hyper-Connections (HC) utvidet denne enkeltbanen til 4 parallelle felt med lærbare matriser som blander informasjon mellom strømmene.
Ytelsesforbedringene var reelle. Men det var et problem:
Disse blandingsmatrisene bygger seg sammen på tvers av lag. En liten 5 % forsterkning per lag blir 18x etter 60 lag. Artikkelen målte forsterkningen som nådde 3000 ganger. Treningen kollapser.
De vanlige løsningene? Gradientklipping. Forsiktig initialisering. Håper det ordner seg.
Dette er hacks. Og hacks skalerer ikke.
DeepSeek gikk tilbake til grunnleggende prinsipper. Hvilken matematisk begrensning ville garantere stabilitet?
Svaret lå i en artikkel fra 1967: Sinkhorn-Knopp-algoritmen.
Det tvinger blandingsmatriser til å være «dobbelt stokastiske», der rader og kolonner hver summerer til 1.
Resultatene:
- 3000x ustabilitet redusert til 1,6x
- Stabilitet garantert av matematikk, ikke flaks
- Kun 6,7 % ekstra treningsoverhead
Ingen hacks. Bare matte.
Jeg har delt lenken til artikkelen i neste tweet.

papir:
299
Topp
Rangering
Favoritter
